Nous Researchは、指示調整済み言語モデルが有害依頼を拒否する仕組みを、ニューロン単位で特定する手法「Contrastive Neuron Attribution(CNA)」を発表しました。
同社は有害プロンプト群と良性プロンプト群をモデルに通し、各MLP層のダウンプロジェクションのニューロン活性の差が大きい上位0.1%を「拒否を担う回路」として抽出しました。
この回路の活性を推論時に0にするアブレーションを行うと、LlamaとQwenの指示モデル(1B〜72B)で拒否率が50%以上低下するケースが多かったとしています。
一方で出力品質は、反復nグラムの割合に基づく指標で0.97以上を維持したと報告しました。
さらに同社は、拒否を識別する構造は微調整前のベースモデルにも存在し、アラインメントの微調整は構造の位置ではなくニューロンの機能を変えると結論づけています。
SAE学習や重み変更を行わず、前向き計算のみで回路を見つけられる点が特徴です。
参照元:2026/05/23 「Nous Research Releases Contrastive Neuron Attribution (CNA): Sparse MLP Circuit Steering Without SAE Training or Weight Modification」 https://www.marktechpost.com/2026/05/23/nous-research-releases-contrastive-neuron-attribution-cna-sparse-mlp-circuit-steering-without-sae-training-or-weight-modification/
この記事へのリアクション
このニュースをどう受け止めましたか?




コメント