超分散トラスト研究チーム
Continuum Computing Trustworthiness Research Team

AIセキュリティの品質マネジメント

機械学習品質マネジメントガイドライン におけるAIセキュリティの品質マネジメントの概要を紹介します。

AIセキュリティの分析の手順

overview-assessment.png

当ウェブページでは、リスクアセスメントに利用する図表の一部を抜粋して掲載しています。
詳細は、機械学習品質マネジメントガイドライン第4版をご覧ください。

機械学習利用システムのセキュリティの基本概念
(出典:機械学習品質マネジメントガイドライン
overview-AI-security.jpg



1. 機械学習利用システムに対する脅威の被害

表6:機械学習利用システムの被害と脅威
(出典:機械学習品質マネジメントガイドライン
被害の内容 被害を引き起こす脅威
機械学習特有の脅威 その他の脅威
完全性または可用性の侵害 システムの誤動作 意図に反する機械学習要素の動作による

T1.1 データポイズニング攻撃

機械学習要素を実装するソフトウェア・ハードウェアに対する従来型の攻撃

T1.2 モデルポイズニング攻撃

T2.1 汚染モデルの悪用

T2.3 回避攻撃

その他の要因による
システムに対する従来型の攻撃
計算資源の浪費 機械学習要素による

T1.1 データポイズニング攻撃(資源枯渇型)

機械学習要素を実装するソフトウェア・ハードウェアに対する従来型の攻撃

T1.2 モデルポイズニング攻撃(資源枯渇型)

T2.1 汚染モデルの悪用

T2.4 スポンジ攻撃

その他の要因による
システムに対する従来型の攻撃
機密性の侵害 訓練済みモデルについての情報の漏洩 T2.3 モデル抽出攻撃 モデルを窃取する従来型の攻撃
訓練用データに含まれるセンシティブ情報の漏洩

T2.5 訓練用データに関する情報漏洩攻撃

データを窃取する従来型の攻撃

T2.1 データポイズニング攻撃(情報埋込型)

その他の機密情報の漏洩 T2.2 モデルポイズニング攻撃(情報埋込型)





2. 機械学習特有の脅威の分類と定義

表7:機械学習特有の脅威の分類と定義
(出典:機械学習品質マネジメントガイドライン
脅威 フェーズ 説明 脅威による被害
C: 機密性, I: 完全性, A: 可用性
T1.1 データポイズニング攻撃 開発時 (a) 訓練済みモデルの意図しない動作や (b) 訓練済みモデルによる計算資源の浪費、(c) 訓練済みモデルからのセンシティブ情報の漏洩を引き起こすために、学習データの採取元または学習データセットを改変する攻撃 I, A モデルの誤動作・機能変更
A モデルによる計算資源の浪費
C センシティブ情報の埋込
T1.2 モデルポイズニング攻撃

開発時


運用時

(a) 訓練済みモデルの意図しない動作や (b) 訓練済みモデルによる計算資源の浪費、(c) 訓練済みモデルからのセンシティブ情報の漏洩を引き起こすために、事前学習モデル、学習機構、または訓練済みモデルを改変する攻撃 I, A モデルの誤動作・機能変更
A 計算資源の浪費
C センシティブ情報の埋込
T2.1 汚染モデルの悪用 運用時 訓練済みモデルの汚染を悪用するデータを運用時に入力する攻撃 I, A モデルの誤動作・機能変更
A 計算資源の浪費
C センシティブ情報の埋込
T2.2 モデル抽出攻撃 運用時 訓練済みモデルの属性や機能についての情報を漏洩させるために、運用時に訓練済みモデルに対して悪意あるデータを入力する攻撃 C モデルの属性・機能の情報漏洩
T2.3 回避攻撃 運用時 訓練済みモデルを誤動作させるために、運用時に訓練済みモデルに対して敵対的データを入力する攻撃 I, A モデルの誤動作
T2.4 スポンジ攻撃 運用時 訓練済みモデルに計算資源を浪費させるために、運用時に訓練済みモデルに対してスポンジデータを入力する攻撃 A 計算資源の浪費
T2.5 訓練用データに関する情報漏洩攻撃 運用時 モデルの学習に用いられた訓練用データについてのセンシティブ情報を運用時に漏洩させるために、運用時に訓練済みモデルに対して悪意あるデータを入力する攻撃 C 訓練用データについてのセンシティブ情報の漏洩





3. 機械学習特有の脅威・攻撃界面・攻撃実行フェーズ・攻撃者・攻撃手段の例

表9:機械学習特有の脅威・攻撃界面・攻撃実行フェーズ・攻撃者・攻撃手段の例
(出典:機械学習品質マネジメントガイドライン
脅威 攻撃界面のアセット 攻撃実行フェーズ 攻撃者の例 攻撃の手段の典型例
T1.1 データポイズニング攻撃 学習データの採取元 学習データセットの収集・加工時 外部攻撃者 学習データの採取元の改変
学習データセット

学習データセットの収集・加工時

システム開発時

データ提供者

システム開発者

外部攻撃者

学習データセットの改変
T1.2 モデルポイズニング攻撃 事前学習モデル

事前学習モデルの学習・提供時

システム開発時

モデル提供者

システム開発者

外部攻撃者

事前学習モデルへのバックドアの設置
学習機構 システム開発時

システム開発者

外部攻撃者

悪意ある訓練用プログラム
訓練済みモデル

システム開発時

システム運用時

訓練済みモデルの改変
T2.1 モデルの汚染の悪用

運用時入力データの採取元

運用時入力データ

システム

システム運用時

システム利用者

システム運用者

バックドアを悪用する運用時入力

(モデルに埋め込まれた情報を窃取するための) 運用時の出力情報等の観察

T2.2 モデル抽出攻撃

グレーボックス

ブラックボックス

運用時入力データの採取元

運用時入力データ

システム

システム運用時

システム利用者

システム運用者

運用時のシステムに対するデータの入力

運用時の出力情報等の観察

T2.3


T2.4

回避攻撃


スポンジ攻撃

ホワイトボックス 訓練済みモデル 訓練済みモデルの入手後 システム運用者 運用時のシステムに対する悪意あるデータの入力

グレーボックス

ブラックボックス

運用時入力データの採取元

運用時入力データ

システム運用時

運用時入力データ提供者

システム運用者

運用時入力データの改変
システム

システム利用者

システム運用者

運用時のシステムに対する悪意あるデータの入力

運用時の出力情報等の観察

T2.5 訓練用データに関する情報漏洩攻撃 ホワイトボックス 事前学習モデル 事前学習モデルの入手後 モデル利用者
(システム開発者)
入手したモデルの動作時の入出力や内部情報の観察
訓練済みモデル 訓練済みモデルの入手後 システム運用者

グレーボックス

ブラックボックス

運用時入力データの採取元

運用時入力データ

システム運用時

運用時入力データ提供者

システム運用者

運用時入力データの改変
システム

システム利用者

システム運用者

運用時のシステムに対するデータの入力

運用時の出力情報等の観察

なお、脅威T2.1〜T2.5の総称を「T2 悪意ある運用データの入力」とする。





4. システム設計・開発フェーズ(モデル開発)におけるセキュリティ管理策の例

表10:システム設計・開発フェーズ(モデル開発)におけるセキュリティ管理策の例

(出典:機械学習品質マネジメントガイドライン

管理策を適用するアセット 脅威 脆弱性の種別 管理策
内部品質 項目番号 管理策の実施項目
α1, α11 学習データの採取元 データポイズニング攻撃 リスク評価(信用)の不備 B-3 c1.1 学習データの採取元の信用性の評価
攻撃の防止・軽減策の不備 c1.2 学習データの採取元のポイズニングを防止・軽減する管理策の実施
リスク評価(検知)の不備 c1.3 学習データの採取元のポイズニングの検知
α2, α12 学習データセット データポイズニング攻撃 リスク評価(信用)の不備 B-3 c2.1 学習データの信用性の評価
攻撃の防止・軽減策の不備 c2.2 学習データのポイズニングを防止・軽減する管理策の実施
リスク評価(検知)の不備 c2.3 学習データのポイズニングの検知
被害の防止・軽減策の不備 c2.4a データポイズニングを防止・軽減するための学習データセットの合成・加工
回避攻撃 攻撃の防止・軽減策の不備 C-2 c2.4c 敵対的データに対して頑健なモデルを学習するための学習データセットの合成・加工
訓練用データの情報漏洩 攻撃の防止・軽減策の不備 B-4pr c2.4e 訓練用データに関するセンシティブ情報の漏洩を軽減するための学習データセットの合成・加工
α3 事前学習モデル モデルポイズニング攻撃 リスク評価(信用)の不備 C-3se c3.1 事前学習モデルの信用性の評価
攻撃の防止・軽減策の不備 C-3se c3.2 事前学習モデルの改変を防止・軽減するための管理策の実施
リスク評価(検知)の不備 C-3se c3.3 事前学習モデルのポイズニングの検知
被害の防止・軽減策の不備 C-3se c3.4 事前学習モデルのポイズニングの除去・軽減
α4 学習機構 データポイズニング攻撃 被害の防止・軽減策の不備 C-3se c4.1 データポイズニングの影響を緩和する学習機構
データポイズニング攻撃以外 リスク評価の不備 D-1 c4.2 学習機構の信用性の評価
モデルポイズニング攻撃 攻撃の防止・軽減策の不備 D-1 c4.3 学習機構の改変を防止・軽減するための管理策の実施
被害の防止・軽減策の不備 C-3se c4.4 事前学習モデルのポイズニングを除去・軽減する学習機構
回避攻撃 攻撃の防止・軽減策の不備 C-2 c4.5c 敵対的データに対して頑健なモデルを学習するための学習機構
訓練用データの情報漏洩攻撃 攻撃の防止・軽減策の不備 C-3pr c4.5e 訓練用データのセンシティブ情報の漏洩を防止・軽減するための学習機構
α5 訓練済み学習モデル モデルポイズニング攻撃 攻撃の防止・軽減策の不備 C-3se c5.1 訓練済み学習モデルのポイズニングを抑止・防止するための管理策の実施
データポイズニング攻撃・モデルポイズニング攻撃 リスク評価の不備 C-3se c5.2 訓練済み学習モデルのポイズニングの検知
被害の防止・軽減策の不備 C-3se c5.3 訓練済み学習モデルのポイズニングの除去・軽減
モデル抽出攻撃 リスク評価の不備 C-3se c5.4b 訓練済み学習モデルの抽出のリスクの評価
回避攻撃 リスク評価の不備 C-2 c5.4c 敵対的データに対する訓練済み学習モデルの頑健性の評価
スポンジ攻撃 リスク評価の不備 C-3se c5.4d スポンジデータに対する訓練済み学習モデルの頑健性の評価
訓練用データの情報漏洩攻撃 リスク評価の不備 C-3pr c5.4e 訓練済み学習モデルからの情報漏洩のリスクの評価





5. システム設計・開発フェーズ(システム構築)におけるセキュリティ管理策の例

表11:システム設計・開発フェーズ(システム構築)におけるセキュリティ管理策の例
(出典:機械学習品質マネジメントガイドライン
管理策を適用するアセット 脅威 脆弱性の種別 管理策
内部品質 項目番号 管理策の実施項目
α6.1 アクセス管理プログラム 悪意ある運用データの入力 攻撃の防止・軽減策の不備 D-2se c6.1 運用中の機械学習要素に対するアクセス管理
α6.2 前処理プログラム 悪意ある運用データの入力

リスク評価の不備

攻撃の防止・軽減策の不備

C-3pr

C-3se

c6.2 運用中の機械学習要素への悪意ある入力の検知・加工・制限
α6.3 機械学習要素 悪意ある運用データの入力 資産A1-A5の脆弱性 c1-c5 資産A1~A5の管理策
被害の防止・軽減策の不備 C-2 c5.5c 敵対的データに対する訓練済み学習モデルの頑健性を向上させる技術の利用
C-3pr c5.5e 訓練用データセットについての情報の漏洩を軽減するために訓練済み学習モデルを改良する技術の利用
α6.4 後処理プログラム 悪意ある運用データの入力 攻撃の防止・軽減策の不備

C-3pr

C-3se

c6.4 運用中の機械学習要素の出力・内部情報の観察の制限
α6.5 リスク監視・対応プログラム 機械学習特有の脅威全般

リスク評価の不備

被害の防止・軽減策の不備

D-2se c6.5 システムの動作を監視し、訓練済みモデルを介して生じるリスクに対処するための管理策の実施
α6.6 従来型のソフトウェア要素 システムに対する従来型の脅威 従来型のソフトウェアの脆弱性 対象外 c6.6 従来型のソフトウェアの脆弱性対策
α6.7 システムの仕様・関連情報 機械学習特有の脅威全般 攻撃の防止・軽減策の不備 A0-seで検討 c6.7 学習データセットや訓練済み学習モデル、システム仕様、その他の関連情報の公開の制限

なお、「悪意ある運用データの入力」は脅威T2.1〜T2.5を指す。





6. システム運用フェーズにおけるセキュリティ管理策の例

表12:システム運用フェーズにおけるセキュリティ管理策の例
(出典:機械学習品質マネジメントガイドライン
管理策を適用するアセット 脅威 脆弱性の種別 管理策
内部品質 項目番号 管理策の実施項目
α7 運用データの採取元 悪意ある運用データの入力 リスク評価(信用)の不備 E-0 c7.1 運用データの採取元の信用性の評価
攻撃の防止・軽減策の不備 c7.2 運用データの採取元の改変を防止・軽減する管理策の実施
リスク評価(検知)の不備 c7.3 運用データの採取元の改変の検知
α8 運用データ 悪意ある運用データの入力 リスク評価(信用)の不備 E-0 c8.1 運用データの信用性の評価
攻撃の防止・軽減策の不備 c8.2 運用データの改変を防止・軽減する管理策の実施
リスク評価(検知)の不備 c8.3 運用データの改変の検知
α9 運用時の計算機環境・運用組織 脅威全般

リスク評価の不備

攻撃・被害の防止・軽減策の不備

c9.1 運用時の計算機環境と運用組織の脆弱性対策
E-0 c9.2 運用時のシステム・環境の変化に対応するための管理策の継続的な更新
E-0 c9.3 運用組織における攻撃と被害の監視



インフォメーション