Nous ResearchがCNAでMLPの拒否回路を特定し、微小な介入で拒否率を大幅低減

Nous Researchは、指示調整済み言語モデルが有害依頼を拒否する仕組みを、ニューロン単位で特定する手法「Contrastive Neuron Attribution(CNA)」を発表しました。
同社は有害プロンプト群と良性プロンプト群をモデルに通し、各MLP層のダウンプロジェクションのニューロン活性の差が大きい上位0.1%を「拒否を担う回路」として抽出しました。
この回路の活性を推論時に0にするアブレーションを行うと、LlamaとQwenの指示モデル(1B〜72B)で拒否率が50%以上低下するケースが多かったとしています。
一方で出力品質は、反復nグラムの割合に基づく指標で0.97以上を維持したと報告しました。
さらに同社は、拒否を識別する構造は微調整前のベースモデルにも存在し、アラインメントの微調整は構造の位置ではなくニューロンの機能を変えると結論づけています。
SAE学習や重み変更を行わず、前向き計算のみで回路を見つけられる点が特徴です。

参照元:2026/05/23 「Nous Research Releases Contrastive Neuron Attribution (CNA): Sparse MLP Circuit Steering Without SAE Training or Weight Modification」 https://www.marktechpost.com/2026/05/23/nous-research-releases-contrastive-neuron-attribution-cna-sparse-mlp-circuit-steering-without-sae-training-or-weight-modification/

この記事へのリアクション

このニュースをどう受け止めましたか?

Reader Reaction

このニュース、みなさんはどう感じましたか?ぜひコメント欄であなたの声を聞かせてください。

※本記事に掲載している情報は公開時点のものです。最新情報は公式発表等をご確認ください。

ぜひコメントを添えてシェアお願いします。
  • URLをコピーしました!
  • URLをコピーしました!

アンケート

AIによって富が集中する代わりに「ベーシックインカム」を導入することに賛成ですか?

回答者数:2人 投票期間:2026/04/16〜2026/05/31
回答はお一人様1回までです。


PR:実務直結の稼げるAIスキルを学べる

DMM 生成AI CAMP

AIを使いこなす側か、使われる側か。今がキャリアの分岐点。

全コース学び放題
入会金・教材費0円
最低契約期間なし・いつでも解約OK

受講生同士が繋がれるコミュニティ

Google検索で 3min AI を優先表示できます

Google検索の「優先ソース」に追加すると、通信ニュースを検索した際に、3min AIの記事が見つけやすくなります。

※Googleの設定画面が開きます。表示されたサイトにチェックを入れると、優先ソースとして設定できます。

Google検索の優先ソースに追加する

コメント

コメントする

CAPTCHA


日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)

目次