錯覚するAI ~敵対的事例の不思議な世界~

2024年12月20日掲載

錯覚するAI

ソフトバンクアドベントカレンダー2024、20日目の記事です。

近年、深層ニューラルネットワーク(Deep Neural Network:DNN)を用いた人工知能(AI)技術は急速な進歩を遂げ、私たちの日常生活や社会のさまざまな場面で活用されています。スマートフォンの顔認証、自動運転車、医療診断支援、音声アシスタントなど、AIの応用範囲は驚くほど広がっています。これらのAIシステムは、膨大なデータを学習し、人間を超える精度で複雑なタスクを遂行することができます。

しかし、AIの普及と同時に、その脆弱性も明らかになってきました。特に注目されているのが「敵対的事例(Adversarial Examples)」と呼ばれる現象です。今回はその敵対的事例について簡単に説明し、実際に作ってみます。

目次

敵対的事例の基本概念

敵対的事例とは

敵対的事例(Adversarial Examples:AE)は、2013年にIntriguing Properties of Neural Networksという論文において報告されたDNNの脆弱性です。

敵対的事例とは、AIモデルに誤分類を引き起こさせるために、 人間には知覚できないような微小な摂動(ノイズ) を加えたデータのことです。例えば、画像に特殊な摂動を加えることで、人間には元の画像と同じように見えるにもかかわらず、AIモデルには全く異なるものとして認識させることができます。

最も有名な例として、パンダの画像に特殊な摂動を加えることで、人間には元のパンダ画像と同じように見えるにもかかわらず、AIモデルにはテナガザルとして認識させることができるというものがあります。

adversarial-examples-sample

敵対的事例の脅威

パンダを誤認識する程度ならかわいいものですが、この脆弱性は様々な形で悪用される可能性があります。

 

自動運転システムへの攻撃

道路標識に特殊なステッカーを貼ることで、「Stop」標識を「45km/h制限」と誤認識させるなど、人命に関わる重大な事故を引き起こす可能性があります。また、DeepBillboardと呼ばれる攻撃手法では、道路脇の看板に摂動を加えることで自動運転車の操舵角を最大23度ずれさせることに成功しています。さらに、車両にプリントされた敵対的事例により、物体検知モデルから車両を秘匿することも可能です。

セキュリティシステムへの攻撃

顔認証による入退室管理システムを欺き、許可されていない人物が立ち入り禁止エリアに侵入することが可能となります。また、データセンターなどで侵入検知システムを誤検知させ、違法な行為を行うことも考えられます。

音声認識システムへの攻撃

Apple Siri、Amazon Echo、Googleアシスタントなどの音声認識システムに対して、人間には聞き取れない変更を音声信号に加えることで、全く異なる命令として認識させることが可能です。例えば、「without the dataset the article is useless」という音声を「okay google browse to evil dot com」と誤認識させることに成功した事例があります。これにより、攻撃者がターゲットのGoogleアシスタントを起動して強制的に悪意のあるサイトに誘導できる可能性や、特定の商品を購入させる可能性、スマートホームしている場合は家電を操作される可能性があります。
 

これらの攻撃の特徴として、人間には気づきにくく証拠となるものがほとんど残らないため、いつ・誰が攻撃を行ったのかの特定が極めて困難です。

また、敵対的事例の転移性により、ある特定のAIモデルを騙すために作成された敵対的事例は、他の同様のタスクを行うAIモデルも騙すことができるという特性があります。このため、AIシステムの安全性と信頼性に重大な懸念を提起しており、特に自動運転や医療診断など、人命に関わるシステムにおいては深刻な問題となる可能性があります。

攻撃手法の種類

敵対的事例(Adversarial Examples)の攻撃手法は、様々な観点から分類することができます。以下に、主要な分類方法とそれぞれの特徴を簡単に解説します。

1. 攻撃の目的による分類

非標的型攻撃(Untargeted Attack)

非標的型攻撃の目的は、AIモデルをオリジナルのクラス以外の任意のクラスに誤分類させることです。

例えば、「犬」の画像を「犬」以外の何かとして認識させればよく、「猫」や「鳥」など具体的なターゲットは指定しません。非標的型攻撃は、一般的に標的型攻撃よりも成功率が高く、より少ない摂動で実現できる傾向があります。

標的型攻撃(Targeted Attack)

標的型攻撃では、AIモデルをオリジナルのクラス以外の「特定の狙ったクラス」に誤分類させることを目的とします。

例えば、「犬」の画像を必ず「猫」として認識させるような攻撃です。標的型攻撃は、非標的型攻撃よりも困難ですが、攻撃者にとってより制御可能で予測可能な結果をもたらします

2. 攻撃者の知識による分類

ホワイトボックス攻撃

ホワイトボックス攻撃では、攻撃者がAIモデルの内部構造、アーキテクチャ、重み、学習データなどの詳細情報を完全に知っている状況を想定します。この知識を利用して、モデルの脆弱性を直接的に攻撃することができます。

代表的な手法として、Fast Gradient Sign Method (FGSM)やProjected Gradient Descent (PGD)などがあります。これらの手法は、モデルの勾配情報を利用して効率的に敵対的事例を生成します。

ブラックボックス攻撃

ブラックボックス攻撃では、攻撃者がAIモデルの内部情報を知らない状況を想定します。攻撃者は、モデルの入出力関係のみを観察し、それに基づいて攻撃を行います。

この種の攻撃は、より現実的なシナリオを反映していますが、効果的な攻撃を行うのはより困難です。代表的な手法として、転移攻撃(他のモデルで生成した敵対的事例を利用)や、クエリベースの攻撃(モデルの出力を繰り返し観察して敵対的事例を生成)などがあります。

3. 摂動の範囲による分類

グローバル摂動攻撃

入力データ全体に微小な変更を加える攻撃手法です。

例えば、画像全体にノイズを加えるFGSMなどが該当します。この手法は、人間の目には気づかれにくい変更を加えつつ、AIモデルの判断を大きく狂わせることができます。

ローカル摂動攻撃

入力データの一部分のみに変更を加える攻撃手法です。

代表的な例として、One Pixel Attack(画像の1ピクセルのみを変更)やパッチ攻撃(画像の一部に特殊なパターンを貼り付ける)などがあります。これらの攻撃は、より少ない変更で効果的な攻撃を実現できる可能性があります。

4. 攻撃の適用範囲による分類

デジタルドメイン攻撃

デジタルデータに直接摂動を加える攻撃です。

画像分類や音声認識などのタスクで一般的に見られます。これらの攻撃は、デジタル環境下で高い効果を示しますが、現実世界への適用には制限があります。

物理世界攻撃

現実世界で機能する敵対的事例を生成する攻撃です。

例えば、自動運転車のカメラを騙すための特殊な道路標識や、顔認識システムを欺くためのメガネなどが該当します。これらの攻撃は、様々な角度、距離、照明条件下でも効果を維持する必要があるため、デジタルドメイン攻撃よりも困難ですが、より実践的な脅威となります。

 

これらの分類は相互に排他的ではなく、多くの攻撃手法が複数のカテゴリーに属することがあります。例えば、ホワイトボックスの標的型攻撃や、ブラックボックスのグローバル摂動攻撃などが考えられます。攻撃手法の多様性は、AIシステムの脆弱性の複雑さを示すとともに、より堅牢なモデルの開発や効果的な防御メカニズムの構築に向けた重要な研究課題となっています。

実践

それでは実際に簡単な画像認識モデルに対して敵対的事例(AE)を生成してみましょう。今回はホワイトボックス攻撃であるFGSMを用いて画像認識モデルのResNet18を攻撃してみます。

PythonにはAEを簡単に作成できるライブラリがいくつか存在しますが、今回はPyTorchやTensorFlowなどの主要なフレームワークに対応しており使い勝手の良いAdversarial Robustness Toolbox(ART)を使います。

ARTでは画像データや音声データを対象とした攻撃手法や、AEを検知する防御手法なども実装されているため気になる方は公式リファレンスを覗いてみてください。

攻撃にはフリーサイトの猫の画像を224x224に変換したものを使用しました。

sample-image

実行結果

実行すると以下のような結果が出力されました。

result-image

ほぼ視認できない量のノイズで認識結果が変わったことを確認できます。(今回は猫の種類が変わっただけですが...)
使用する画像を変えて是非皆さんも動かしてみてください。

まとめ

今回はAIを騙す敵対的事例(Adversarial Examples:AE)について簡単に説明しました。ざっくりまとめると以下の通りです。

  • AEは機械学習モデルを意図的に誤認識させるために作られた入力データ
  • 画像、音声、テキストなど様々な形式で作成できる
  • 人間には違いがほとんど分からない程度の微小な変更を加えることで、モデルの予測を大きく狂わせることができる
  • 自動運転や顔認証などの実用的なアプリケーションにおいて深刻な脅威となる可能性がある

ソフトバンクアドベントカレンダー2024は、21日に続きます。

おすすめの記事

条件に該当するページがございません