Microsoft Researchの研究者らは、大規模言語モデルに文書編集などの「委任作業」を任せた際、内容が静かに破損し得ることを示す研究を発表しました。
研究では、文書を複数ラウンドにわたり編集させる自律的ワークフローを模擬するベンチマークDELEGATE-52を構築しました。
同ベンチマークは52の専門領域を対象に、実データの文書(2,000〜5,000トークン)と5〜10の複雑な編集タスクで構成されています。
評価は、編集指示とその逆操作を対にして「往復」できるかを測るラウンドトリップ手法で行い、人手による参照解を不要にしました。
OpenAI、Anthropic、Google、Mistral、xAI、Moonshotの19モデルを20回の連続編集で試した結果、全体で平均50%の劣化が確認されました。
最良クラスでも、Gemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4は平均25%の文書内容を損なったと報告されています。
劣化は細かな誤りの積み重ねよりも、単一の相互作用で文書の10%以上を落とす重大な失敗が約80%を占めました。
また、コード実行やファイル入出力などの汎用ツールをエージェントに与えると、平均で劣化がさらに6%悪化しました。
さらに、関連するが無関係なダミー文書(8,000〜12,000トークン)を混ぜると、文脈の汚れによる性能低下が長期で2〜8%に拡大する可能性も示されました。
研究者は、完全自律エージェントの過度な期待に対する現実的な警鐘として、短く透明なタスク設計と多段階の検証が必要だとしています。
参照元:2026/05/14 「Frontier AI models don’t just delete document content — they rewrite it, and the errors are nearly impossible to catch」 https://venturebeat.com/orchestration/frontier-ai-models-dont-just-delete-document-content-they-rewrite-it-and-the-errors-are-nearly-impossible-to-catch
この記事へのリアクション
このニュースをどう受け止めましたか?



コメント