Hugging Faceは、LLMの後学習(post-training)ワークフローをエンドツーエンドで自動化するオープンソースAIエージェント「ml-intern」を公開しましたです。
ml-internは同社の「smolagents」フレームワーク上で動作し、文献調査、データセット探索、学習スクリプト実行、反復評価までを自律的に行います。
具体的にはarXivやHugging Face Papersを巡回して手法を読み、引用グラフをたどって関連データと技術を特定します。
続いてHugging Face Hubから参照データセットを探し、品質を確認したうえで学習用に整形します。
ローカル計算資源がない場合は「Hugging Face Jobs」でジョブを起動し、学習後は評価結果を読み失敗要因を診断して再学習します。
失敗例としてRLHFパイプラインでの報酬崩壊などが挙げられています。
監視・記録にはHubネイティブの実験トラッカー「Trackio」を利用します。
ml-internは、チュービンゲン大学とマックス・プランク研究所が提案したベンチマーク「PostTrainBench」で検証され、単一H100 GPUで10時間以内に後学習する能力を評価します。
デモではQwen3-1.7Bを、GPQAの基準約10%から10時間未満で32%へ引き上げました。
また27.5%を3時間超で到達したとされています。
同タスクでの既存SOTAとして、Hugging Faceのデータでは「Claude Code」が22.99%だったのに対し、ml-internはそれを上回りました。
さらに合成データ生成や、PPOよりメモリ負荷を抑えるとされるGRPOによる自律的RLHFもデモで示されています。
Hugging Faceは、アプリとCLIの提供を案内しています。
参照元:2026/04/22 「Hugging Face Releases ml-intern: An Open-Source AI Agent that Automates the LLM Post-Training Workflow」 https://www.marktechpost.com/2026/04/21/hugging-face-releases-ml-intern-an-open-source-ai-agent-that-automates-the-llm-post-training-workflow/



コメント