AI開発エージェント、ベンチの信頼性に警鐘 OpenAIはSWE-bench Verified停止

AI開発エージェント市場で、作業を自律的に進めて修正案を提示するツールが急速に進化しています。一方、ベンチマークの扱いには注意が必要だとする指摘が出ています。
MarkTechPostは、2026年時点での主要なAIコーディングエージェントを、SWE-bench Verified、SWE-bench Pro、Terminal-Bench 2.0などの指標と実利用データに基づき整理しました。
ただし、OpenAIは2026年2月23日にSWE-bench Verifiedのスコア報告を停止したと説明しました。
OpenAIの監査では、難問の59.4%に根本的に欠陥がある、または解けないテストが含まれていたとされています。
さらに、主要なフロンティアモデルがタスクIDだけでゴールドパッチを再現できる兆候があり、学習データ汚染の可能性が示されたとしています。
OpenAIは代替としてSWE-bench Proを推奨し、Verifiedは方向性の参考にとどめるべきだとしています。
記事では、Claude Code(Anthropic)が多くの公開評価で高いコード品質を示す一方、GPT-5.5を搭載したOpenAI CodexはTerminal-Bench 2.0で82.7%と上位だったと報告しました。
また、同じモデルでもエージェントの枠組みや実行環境で結果が大きく変わるため、ツール選定はモデル名だけで判断せず、自社コードで検証すべきだと結論づけています。

参照元:2026/05/15 「Best AI Agents for Software Development Ranked: A Benchmark-Driven Look at the Current Field」 https://www.marktechpost.com/2026/05/15/best-ai-agents-for-software-development-ranked-a-benchmark-driven-look-at-the-current-field/

この記事へのリアクション

このニュースをどう受け止めましたか?

Reader Reaction

このニュース、みなさんはどう感じましたか?ぜひコメント欄であなたの声を聞かせてください。

※本記事に掲載している情報は公開時点のものです。最新情報は公式発表等をご確認ください。

ぜひコメントを添えてシェアお願いします。
  • URLをコピーしました!
  • URLをコピーしました!

アンケート

AIが「課長」や「部長」になる会社、あなたは働きたい?

回答者数:2人 投票期間:2026/04/16〜2026/05/16
回答はお一人様1回までです。


PR:実務直結の稼げるAIスキルを学べる

DMM 生成AI CAMP

AIを使いこなす側か、使われる側か。今がキャリアの分岐点。

全コース学び放題
入会金・教材費0円
最低契約期間なし・いつでも解約OK

受講生同士が繋がれるコミュニティ

Google検索で 3min AI を優先表示できます

Google検索の「優先ソース」に追加すると、通信ニュースを検索した際に、3min AIの記事が見つけやすくなります。

※Googleの設定画面が開きます。表示されたサイトにチェックを入れると、優先ソースとして設定できます。

Google検索の優先ソースに追加する

コメント

コメントする

CAPTCHA


日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)

目次