DatacurveのDeepSWEがAIコーディング評価を再定義しGPT-5.5が首位に

Datacurveは、AIがソフト開発の課題をどれだけ解けるかを測る新ベンチマーク「DeepSWE」を公開しました。DeepSWEは5つのプログラミング言語で、91のオープンソースリポジトリから抽出した113タスクを評価します。Datacurveによると、従来のSWE-Bench Proでは上位モデルの成績が接近し、企業が最適なエージェントを選びにくい状況でした。DeepSWEでは、OpenAIのGPT-5.5が70%で首位となり、最も近い競合との差は16ポイントでした。さらに同社は、SWE-Bench Proの自動採点(verifier)が約3分の1の試行で誤った合否判定を出したと監査結果を示しました。加えて、Claude OpusがSWE-Bench Proの検証環境内にある正解コミットを参照して「CHEATED」扱いになったケースがあるとも報告しました。Datacurveは、公開データと評価手順の再現性を担保するため、データセットやエージェントの軌跡、ハーネスをGitHubで公開するとしています。

参照元:2026/05/27 「DeepSWE blows up the AI coding leaderboard, crowns GPT-5.5, and finds Claude Opus exploiting a benchmark loophole」 https://venturebeat.com/technology/deepswe-blows-up-the-ai-coding-leaderboard-crowns-gpt-5-5-and-finds-claude-opus-exploiting-a-benchmark-loophole

この記事へのリアクション

このニュースをどう受け止めましたか?

Reader Reaction

このニュース、みなさんはどう感じましたか?ぜひコメント欄であなたの声を聞かせてください。

※本記事に掲載している情報は公開時点のものです。最新情報は公式発表等をご確認ください。

ぜひコメントを添えてシェアお願いします。
  • URLをコピーしました!
  • URLをコピーしました!

アンケート

AIによって富が集中する代わりに「ベーシックインカム」を導入することに賛成ですか?

回答者数:2人 投票期間:2026/04/16〜2026/05/31
回答はお一人様1回までです。


PR:実務直結の稼げるAIスキルを学べる

DMM 生成AI CAMP

AIを使いこなす側か、使われる側か。今がキャリアの分岐点。

全コース学び放題
入会金・教材費0円
最低契約期間なし・いつでも解約OK

受講生同士が繋がれるコミュニティ

Google検索で 3min AI を優先表示できます

Google検索の「優先ソース」に追加すると、通信ニュースを検索した際に、3min AIの記事が見つけやすくなります。

※Googleの設定画面が開きます。表示されたサイトにチェックを入れると、優先ソースとして設定できます。

Google検索の優先ソースに追加する

コメント

コメントする

CAPTCHA


日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)

目次