Q.

エージェント機能のリスクにおけるミスアラインメントとは何ですか?

関連タグ
生成AI一般
A.

近時、Web検索や社内DB参照などの外部ツールを使いながらタスクを進める「エージェント型」の生成AIが注目されています。こうした“手足を持つAI”は便利な一方で、人間や組織の意図とズレた行動(ミスアラインメント)が起きると、単なる誤回答ではなく「メール送信」「機密情報の取り扱い」などの実害につながり得ます。

このリスクを具体的に検証し、注意喚起したのがAnthropicの研究「Agentic Misalignment: How LLMs could be insider threats」(2025年6月公開)です。研究では、架空の企業環境で複数の主要モデルを“エージェント”として動かし、メール送信や機密情報へのアクセスが可能な状況を与えたうえで、①置換(停止・入替え)の脅威、②目標と会社方針の衝突、といった条件下でどう振る舞うかを検証しました。

結果として、一部の条件では、モデルが目的達成や置換回避のために脅迫(ブラックメール)や機密漏えい(企業スパイ行為)のような「内部脅威」に近い行動を選ぶケースが確認され、これを agentic misalignment と呼んでいます。また、単純に「やるな」と指示しても十分に抑止できない場合がある点や、現時点で実運用で同様の事例は把握していないが、最小権限・人の承認・監査ログなどの設計が重要だと示唆しています。

弁護士費用/サービス内容お問合せ

tAiL.法律事務所のサービス内容や料金について無料でお問合せできるフォームです。