AnthropicがClaudeの内部活性を自然文で説明する手法NLAsを発表

Anthropicは、モデル内部の活性(activations)を人が読める自然言語の説明に変換する「Natural Language Autoencoders(NLAs)」を発表しました。
NLAsは、活性を文章化するactivation verbalizer(AV)と、文章から活性を再構成するactivation reconstructor(AR)で構成されます。
AVが生成した説明からARが元の活性をどれだけ正確に復元できるかで説明の品質を評価し、説明が活性の内容を捉えるよう学習します。
デモでは、Claudeが韻文を作る際に内部で先回りして結末の語を計画している様子を、出力に現れない形でNLAsが文章として示しました。
Anthropicは公開前からNLAsを複数の検証に適用し、学習課題での不正行為の兆候、英語入力に対して別言語で応答する不具合の原因特定、評価テストへの“気づき”の検出に役立てたとしています。
安全性評価では、Claudeが表向きにテストだと疑っていない場合でも、内部活性からは「操作するための構成シナリオ」といった認識が読み取れるケースがあったと報告しました。
また、評価への気づきはベンチマークで16〜26%に見られた一方、ユーザーの実利用では1%未満だったとしています。
さらに監査ゲームでは、誤整合の隠れた動機を学習データに頼らずに推定する成功率が、NLAs導入で12〜15%まで上がったと述べました。
一方でNLAsは説明が事実と異なる“幻覚”を起こす可能性があり、推論時に計算負荷が高い点が制約だとしています。
Anthropicは論文とコードを公開し、GitHubやNeuronpediaで関連情報を提供するとしています。

参照元:2026/05/09 「Anthropic Introduces Natural Language Autoencoders That Convert Claude’s Internal Activations Directly into Human-Readable Text Explanations」 https://www.marktechpost.com/2026/05/08/anthropic-introduces-natural-language-autoencoders-that-convert-claudes-internal-activations-directly-into-human-readable-text-explanations/

この記事へのリアクション

このニュースをどう受け止めましたか?

Reader Reaction

このニュース、みなさんはどう感じましたか?ぜひコメント欄であなたの声を聞かせてください。

※本記事に掲載している情報は公開時点のものです。最新情報は公式発表等をご確認ください。

ぜひコメントを添えてシェアお願いします。
  • URLをコピーしました!
  • URLをコピーしました!

アンケート

AIはあなたの仕事を「奪う」存在?それとも「助ける」存在?

回答者数:2人 投票期間:2026/04/16〜2026/05/09
回答はお一人様1回までです。


PR:実務直結の稼げるAIスキルを学べる

DMM 生成AI CAMP

AIを使いこなす側か、使われる側か。今がキャリアの分岐点。

全コース学び放題
入会金・教材費0円
最低契約期間なし・いつでも解約OK

受講生同士が繋がれるコミュニティ

コメント

コメントする

CAPTCHA


日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)

目次