AI開発エージェント、ベンチの信頼性に警鐘　OpenAIはSWE-bench Verified停止

2026年5月16日

AI開発エージェント市場で、作業を自律的に進めて修正案を提示するツールが急速に進化しています。一方、ベンチマークの扱いには注意が必要だとする指摘が出ています。
MarkTechPostは、2026年時点での主要なAIコーディングエージェントを、SWE-bench Verified、SWE-bench Pro、Terminal-Bench 2.0などの指標と実利用データに基づき整理しました。
ただし、OpenAIは2026年2月23日にSWE-bench Verifiedのスコア報告を停止したと説明しました。
OpenAIの監査では、難問の59.4%に根本的に欠陥がある、または解けないテストが含まれていたとされています。
さらに、主要なフロンティアモデルがタスクIDだけでゴールドパッチを再現できる兆候があり、学習データ汚染の可能性が示されたとしています。
OpenAIは代替としてSWE-bench Proを推奨し、Verifiedは方向性の参考にとどめるべきだとしています。
記事では、Claude Code（Anthropic）が多くの公開評価で高いコード品質を示す一方、GPT-5.5を搭載したOpenAI CodexはTerminal-Bench 2.0で82.7%と上位だったと報告しました。
また、同じモデルでもエージェントの枠組みや実行環境で結果が大きく変わるため、ツール選定はモデル名だけで判断せず、自社コードで検証すべきだと結論づけています。

参照元：2026/05/15 「Best AI Agents for Software Development Ranked: A Benchmark-Driven Look at the Current Field」 https://www.marktechpost.com/2026/05/15/best-ai-agents-for-software-development-ranked-a-benchmark-driven-look-at-the-current-field/