Googleの研究チームは、LLM(大規模言語モデル)を使って統合テストの失敗ログから根本原因を自動で特定する「Auto-Diagnose」を導入しました。
統合テストの失敗では、テストドライバのログにタイムアウトや一般的なアサーションしか出ず、実際の原因がSUT(対象システム)側のログに埋もれやすい課題があるとしています。
Auto-Diagnoseは、失敗が起きるとpub/subイベントで起動し、データセンターやプロセス、スレッドにまたがるINFO以上のログを収集します。
収集したログをタイムスタンプで結合・ソートし、コンポーネント情報とともにプロンプトへ投入して診断文を生成します。
使用するモデルはGemini 2.5 Flashで、微調整は行わずtemperature 0.1とtop_p 0.8で推論します。
プロンプトには、根拠となるログが見つからない場合は結論を出さないなどの否定制約が組み込まれています。
生成結果はGoogleの社内コードレビュー「Critique」にコメントとして投稿され、関連ログ行はリンク表示されます。
手動評価では71件の実障害で根本原因を90.14%の確率で特定し、さらに本番では2025年5月以降52,635件の失敗テストに適用されました。
フィードバックでは「Not helpful」が5.8%にとどまり、推論の遅延はp50で56秒でした。
参照元:2026/04/18 「Google AI Releases Auto-Diagnose: An Large Language Model LLM-Based System to Diagnose Integration Test Failures at Scale」 https://www.marktechpost.com/2026/04/17/google-ai-releases-auto-diagnose-an-large-language-model-llm-based-system-to-diagnose-integration-test-failures-at-scale/



コメント