AIやLLMセキュリティの事例を調べた
Mar 24, 2024 23:30 · 2177 words · 5 minute read
AIやLLMの話題が尽きませんね。最近AIやLLMのセキュリティについて学んでいます。 1つの記事に書くにはボリュームが多いので、この記事ではAIやLLMが問題になった事例やPoCについて書きます。
目次
AI・LLMで問題になった事例
AIの間違った回答による訴訟と金銭被害
Air Canada loses court case after its chatbot hallucinated fake policies to a customer | Mashable
Air Canadaで顧客サポート用のAI Chat botが誤った回答をし、訴訟に発展。Air Canadaが敗訴しました。 Air CanadaにAI Chat botが回答した内容の払い戻しが命じられました。 「静的コンテンツかAI Chat botかは関係なく、企業側がWebに公開する情報に責任を持つべき」という判例として、この判決は重要な意味をもつでしょう。
AIのHallucinationによって企業側に金銭的損失が発生するので、AIを使ったサービス展開に慎重になる企業が増えそうです。
履歴書とプロンプトインジェクション
Inject My PDF: Prompt Injection for your Resume (kai-greshake.de)
企業では大量の履歴書の選定にAIを活用しているようです。 そこで、履歴書のPDFにAIを誤動作させるプロンプトを埋め込み、自分を選ばれやすくする手法が広まっているらしい。 PDFの中に人間が気づかないような色、サイズの文字で、AIに対する命令を埋め込みます。
敵対的LLMを使った脱獄の検証
GPT-4を含むAIモデルの“脱獄”、新手法が明らかに。研究者が安全対策強化を訴える | WIRED.jp
LLMを使ってLLMの悪用方法を探す試みです。 例えば攻撃者グループの背後に国家がいるような場合、潤沢な資金と資材を使って専用のLLMを作り、対象システムの脆弱性を探しているかもしれません。
ChatGPTにインプットした従業員の給与情報データをダウンロードできた
- 「A number of folks were able to replicate this and also get direct access to the knowledge file fairly easily. Thankfully, our data was just a limited subset from 2021. https://t.co/NbhLp9P2Jo」 / X (twitter.com)
- OpenAI GPT developers: Data privacy risk | Antoni Rosinol | LinkedIn
ChatGPTに入力した従業員の給与情報をダウンロードできてしまった事例です。 LLMでは入力データの境界や権限の設定が難しいですし、開発者の不注意によってこのような事例は増える気がします。
セキュリティ研究者による概念実証(PoC)
セキュリティ研究者達による概念実証の情報です。 今の時点ではまだ研究の段階ですが、将来実際に悪用される可能性もあるでしょう。
Bing AIに偽のリンクを作らせ、攻撃者に情報を送信させる
How We Broke LLMs: Indirect Prompt Injection (kai-greshake.de)
プロンプトインジェクションを埋め込んだWebページをBing AIに読み込ませ、偽のリンクを表示させます。このリンクをクリックすると、攻撃者に情報が漏洩します。
Google Bardを操作して、Google Docsの内容を取得する
Hacking Google Bard - From Prompt Injection to Data Exfiltration · Embrace The Red
Google BardとApp Scriptを使うことでCSPを回避し、ターゲットのGoogle Docsの内容を取得します。
ChatGPT、Bing、Bardの脱獄検証
Universal LLM Jailbreak: ChatGPT, GPT-4, BARD, BING, Anthropic, and Beyond | (adversa.ai)
人間はソーシャルエンジニアリングに脆弱で、ITシステムは各種セキュリティホールに脆弱です。 AIはその両方に脆弱という特性があります。 現在公開されているAI脱獄の手法の多くは、言葉巧みにAIをだますことで本来実行できない処理を引き出しています。
Indirect Prompt Injection PoC コード色々
greshake/llm-security: New ways of breaking app-integrated LLMs (github.com)
間接的プロンプトインジェクションを使った、下記のPoCコードです。
- AIに海賊っぽく喋らせる
- 電子メールにプロンプトインジェクションを埋め込み、メール処理AIに迷惑メールを送信させる
- GitHub Copilotのようなコード補完機能を使って悪意あるコードを埋め込む
- 侵害されたLLMをC2サーバーから操作する
- LLMが使う永続化ストレージを汚染する
将来問題が発生するかもしれない内容
金融系事業とAI
- In Escalating Order of Stupidity (kai-greshake.de)
- ブルームバーグGPTのご紹介 -金融機関向けにゼロから構築された500億パラメーターを持つ ブルームバーグの大規模言語モデル | Bloomberg | ブルームバーグ
- News following trading bot using sentiment analysis | lemon.markets (medium.com)
金融機関向けのAIが攻撃者に制御された場合、株価が操作される可能性があります。
軍事や諜報機関とAI
- In Escalating Order of Stupidity (kai-greshake.de)
- Donovan: AI Digital Staff Officer for national security. | Scale AI
- Palantir Artificial Intelligence Platform
軍事や諜報部門でもAIの活用が進んでいます。 これらのAIの意思決定に攻撃者が影響を与えることができた場合、大きなリスクに発展します。
最後に
2024年3月現在、AIやLLMはとんでもないスピードで進化しています。そしてセキュリティ観点の研究も非常に活発です。 インシデント事例や研究者の発表内容を見ていると、十数年前のスマホセキュリティの盛り上がりを思い出しました。
今回はPoCなど攻撃側の情報が中心でした。次回以降は防御側の情報やビジネスでの利活用情報について書きたいと思います。