Anthropicは、モデル内部の活性(activations)を人が読める自然言語の説明に変換する「Natural Language Autoencoders(NLAs)」を発表しました。
NLAsは、活性を文章化するactivation verbalizer(AV)と、文章から活性を再構成するactivation reconstructor(AR)で構成されます。
AVが生成した説明からARが元の活性をどれだけ正確に復元できるかで説明の品質を評価し、説明が活性の内容を捉えるよう学習します。
デモでは、Claudeが韻文を作る際に内部で先回りして結末の語を計画している様子を、出力に現れない形でNLAsが文章として示しました。
Anthropicは公開前からNLAsを複数の検証に適用し、学習課題での不正行為の兆候、英語入力に対して別言語で応答する不具合の原因特定、評価テストへの“気づき”の検出に役立てたとしています。
安全性評価では、Claudeが表向きにテストだと疑っていない場合でも、内部活性からは「操作するための構成シナリオ」といった認識が読み取れるケースがあったと報告しました。
また、評価への気づきはベンチマークで16〜26%に見られた一方、ユーザーの実利用では1%未満だったとしています。
さらに監査ゲームでは、誤整合の隠れた動機を学習データに頼らずに推定する成功率が、NLAs導入で12〜15%まで上がったと述べました。
一方でNLAsは説明が事実と異なる“幻覚”を起こす可能性があり、推論時に計算負荷が高い点が制約だとしています。
Anthropicは論文とコードを公開し、GitHubやNeuronpediaで関連情報を提供するとしています。
参照元:2026/05/09 「Anthropic Introduces Natural Language Autoencoders That Convert Claude’s Internal Activations Directly into Human-Readable Text Explanations」 https://www.marktechpost.com/2026/05/08/anthropic-introduces-natural-language-autoencoders-that-convert-claudes-internal-activations-directly-into-human-readable-text-explanations/
この記事へのリアクション
このニュースをどう受け止めましたか?



コメント