Adversarial attacksとは
Adversarial attacksとは、AIなどのモデルに対して微細な変更を加えた入力データを提供し、モデルの誤判定を引き起こす手法のことを指します。これによって、人間にはわかりにくい変更でも、AIの性能を低下させたり、誤動作を引き起こすことが可能です。このような攻撃で生成された入力データは「敵対的サンプル」と呼ばれます。
敵対的攻撃の目的
- AIの弱点やバイアスを発見する。
- AIの信頼性や安全性を検証する。
- AIの学習や推論を妨害する。
- AIのプライバシーやセキュリティを侵害する。
敵対的攻撃の分類
敵対的攻撃に対抗する手法
- 敵対的学習:敵対的サンプルを学習データに組み込むことでモデルを強化する。
- 特徴量の絞り込み:入力データから不要な特徴量を排除し、攻撃の影響を減少させる。
- ネットワークの蒸留:モデルの複雑さを縮小して攻撃を困難にする。
- アンサンブルメソッド:複数のモデルや手法を組み合わせて攻撃への抵抗力を高める。
- Autoencoderによる検出:入力データを再構築して敵対的サンプルを検出する。
敵対的攻撃はAIモデルの信頼性やセキュリティの問題となるため、これに対抗する研究と対策が重要です。