MetaがAutodataを発表、AIエージェントで高品質学習データを反復生成

2026年5月2日

MetaのAI研究チームは、学習データの品質がAI性能を左右する点に着目し、Autodataというエージェント型フレームワークを発表しました。
AutodataはAIモデルを「自律的なデータサイエンティスト」として動かし、学習用データと評価用データを繰り返し作成・分析・改善するクローズドループ処理を実行します。
従来の合成データ生成は単発で作って後から絞り込みが中心でしたが、Autodataは生成中に品質を点検し、必要に応じて生成手順を更新します。
初期実装としてMetaが提示したのはAgentic Self-Instructで、オーケストレーション用の主LLMと、Challenger、Weak Solver、Strong Solver、Verifier/Judgeの4種のサブエージェントで構成されます。
Verifier/Judgeはルーブリックに基づき出力を多条件で評価し、基準を満たさない場合は主エージェントがフィードバックを返して別の観点から再生成します。
この仕組みで、CS論文1万件超からQAペア2117件を作成し、Qwen-3.5-4BをGRPOで学習したところ、通常のCoT Self-Instructよりイン・アウト双方のテストで優位性が示されたとしています。
さらにAutodataは、データサイエンティスト役のエージェント自体の指示文や評価ロジックを最適化するメタ最適化も可能で、検証パス率を12.8%から42.4%へ高めたと報告しました。

参照元：2026/05/02 「Meta Introduces Autodata: An Agentic Framework That Turns AI Models into Autonomous Data Scientists for High-Quality Training Data Creation」 https://www.marktechpost.com/2026/05/01/meta-introduces-autodata-an-agentic-framework-that-turns-ai-models-into-autonomous-data-scientists-for-high-quality-training-data-creation/