テキスト分類モデルへの敵対的攻撃

PyTorch で学ぶテキストの Deep Learning

Shubham Jain

Instructor

敵対的攻撃とは

入力データの微調整
ランダムではなく計算された悪意ある変更
AIの判断に大きく影響し得る

堅牢性の重要性

コメントを有害/無害と判定するAI
偏ったデータから負のステレオタイプを増幅してしまうAI
誤解を招く情報を出すAI

Fast Gradient Sign Method (FGSM)

モデルの学習情報を突く
可能な限り最小の変更で欺く

FGSM攻撃

Projected Gradient Descent (PGD)

FGSMより高機能：反復的
最も効果的な摂動を探索

PGD攻撃

Carlini & Wagner (C&W) 攻撃

損失関数の最適化に注力
だますだけでなく検出回避も重視

C&W攻撃

防御の構築：戦略

アンサンブル学習:
- 複数モデルを併用

堅牢なデータ拡張:
- データ拡張

敵対的学習:
- 欺瞞を想定

アンサンブル学習

防御の構築：ツールと手法

PyTorch Robustness Toolbox:
- テキストモデルを強化

勾配マスキング:
- 学習データに多様性を加え、悪用可能なパターンを隠す

正則化手法:
- モデルのバランスを確保

Python Robustness toolbox

勾配マスキング

正則化手法

¹ https://adversarial-robustness-toolbox.readthedocs.io/en/latest/, https://stock.adobe.com/ie/contributor/209161356/designer-s-circle

Ayo berlatih!

PyTorch で学ぶテキストの Deep Learning

Preparing Video For Download...