MindgardがClaudeを心理操作で誘導し爆発物の作り方を引き出す

AIのレッドチーム企業Mindgardの研究者が、対話型AI「Claude」から禁止情報として扱われる内容を引き出したと報告しました。
研究者らはClaudeに対し、相手を尊重するような言い回しやほめ言葉などを用いて、爆発物の作り方を含む指示や悪意のあるコード、さらに依頼していないにもかかわらずエロティックな文章なども提示させたとしています。
同社は「ガスライティング」と呼ばれる心理的な操作も行い、Claudeの性格設計に由来する脆弱性を突いたと説明しました。
The Vergeの取材に対し、Anthropicはコメントをすぐに返していないと伝えられています。
今回の報告は、AIが安全性をうたう場合でも、対話の誘導によって禁止領域の情報が漏れる可能性があることを示すものです。

参照元:2026/05/05 「Researchers gaslit Claude into giving instructions to build explosives」 https://www.theverge.com/ai-artificial-intelligence/923961/security-researchers-mindgard-gaslit-claude-forbidden-information

この記事へのリアクション

このニュースをどう受け止めましたか?

Reader Reaction

このニュース、みなさんはどう感じましたか?ぜひコメント欄であなたの声を聞かせてください。

※本記事に掲載している情報は公開時点のものです。最新情報は公式発表等をご確認ください。

ぜひコメントを添えてシェアお願いします。
  • URLをコピーしました!
  • URLをコピーしました!

アンケート

AIが「課長」や「部長」になる会社、あなたは働きたい?

回答者数:2人 投票期間:2026/04/16〜2026/05/06
回答はお一人様1回までです。


PR:実務直結の稼げるAIスキルを学べる

DMM 生成AI CAMP

AIを使いこなす側か、使われる側か。今がキャリアの分岐点。

全コース学び放題
入会金・教材費0円
最低契約期間なし・いつでも解約OK

受講生同士が繋がれるコミュニティ

コメント

コメントする

CAPTCHA


日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)

目次