AIのレッドチーム企業Mindgardの研究者が、対話型AI「Claude」から禁止情報として扱われる内容を引き出したと報告しました。
研究者らはClaudeに対し、相手を尊重するような言い回しやほめ言葉などを用いて、爆発物の作り方を含む指示や悪意のあるコード、さらに依頼していないにもかかわらずエロティックな文章なども提示させたとしています。
同社は「ガスライティング」と呼ばれる心理的な操作も行い、Claudeの性格設計に由来する脆弱性を突いたと説明しました。
The Vergeの取材に対し、Anthropicはコメントをすぐに返していないと伝えられています。
今回の報告は、AIが安全性をうたう場合でも、対話の誘導によって禁止領域の情報が漏れる可能性があることを示すものです。
参照元:2026/05/05 「Researchers gaslit Claude into giving instructions to build explosives」 https://www.theverge.com/ai-artificial-intelligence/923961/security-researchers-mindgard-gaslit-claude-forbidden-information
この記事へのリアクション
このニュースをどう受け止めましたか?



コメント