Microsoft研究が示す、LLMの委任作業で文書が静かに25%損なわれる実態

Microsoft Researchの研究者らは、大規模言語モデルに文書編集などの「委任作業」を任せた際、内容が静かに破損し得ることを示す研究を発表しました。
研究では、文書を複数ラウンドにわたり編集させる自律的ワークフローを模擬するベンチマークDELEGATE-52を構築しました。
同ベンチマークは52の専門領域を対象に、実データの文書(2,000〜5,000トークン)と5〜10の複雑な編集タスクで構成されています。
評価は、編集指示とその逆操作を対にして「往復」できるかを測るラウンドトリップ手法で行い、人手による参照解を不要にしました。
OpenAI、Anthropic、Google、Mistral、xAI、Moonshotの19モデルを20回の連続編集で試した結果、全体で平均50%の劣化が確認されました。
最良クラスでも、Gemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4は平均25%の文書内容を損なったと報告されています。
劣化は細かな誤りの積み重ねよりも、単一の相互作用で文書の10%以上を落とす重大な失敗が約80%を占めました。
また、コード実行やファイル入出力などの汎用ツールをエージェントに与えると、平均で劣化がさらに6%悪化しました。
さらに、関連するが無関係なダミー文書(8,000〜12,000トークン)を混ぜると、文脈の汚れによる性能低下が長期で2〜8%に拡大する可能性も示されました。
研究者は、完全自律エージェントの過度な期待に対する現実的な警鐘として、短く透明なタスク設計と多段階の検証が必要だとしています。

参照元:2026/05/14 「Frontier AI models don’t just delete document content — they rewrite it, and the errors are nearly impossible to catch」 https://venturebeat.com/orchestration/frontier-ai-models-dont-just-delete-document-content-they-rewrite-it-and-the-errors-are-nearly-impossible-to-catch

この記事へのリアクション

このニュースをどう受け止めましたか?

Reader Reaction

このニュース、みなさんはどう感じましたか?ぜひコメント欄であなたの声を聞かせてください。

※本記事に掲載している情報は公開時点のものです。最新情報は公式発表等をご確認ください。

ぜひコメントを添えてシェアお願いします。
  • URLをコピーしました!
  • URLをコピーしました!

アンケート

AIが「課長」や「部長」になる会社、あなたは働きたい?

回答者数:2人 投票期間:2026/04/16〜2026/05/14
回答はお一人様1回までです。


PR:実務直結の稼げるAIスキルを学べる

DMM 生成AI CAMP

AIを使いこなす側か、使われる側か。今がキャリアの分岐点。

全コース学び放題
入会金・教材費0円
最低契約期間なし・いつでも解約OK

受講生同士が繋がれるコミュニティ

Google検索で 3min AI を優先表示できます

Google検索の「優先ソース」に追加すると、通信ニュースを検索した際に、3min AIの記事が見つけやすくなります。

※Googleの設定画面が開きます。表示されたサイトにチェックを入れると、優先ソースとして設定できます。

Google検索の優先ソースに追加する

コメント

コメントする

CAPTCHA


日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)

目次