Adversarielle Angriffe auf Textklassifikationsmodelle

Deep Learning für Text mit PyTorch

Shubham Jain

Instructor

Was sind adversarielle Angriffe?

"- Anpassungen an den Eingabedaten

"- KI-Systeme entscheiden, ob Nutzerkommentare toxisch oder harmlos sind

"- Nutzt die Lerninformationen des Modells aus

FGSM-Angriff {{3}}"

"- Fortschrittlicher als FGSM: Es ist iterativ

PGD-Angriff {{3}}"

"- Konzentriert sich auf die Optimierung der Verlustfunktion

Es geht nicht nur darum, zu täuschen, sondern auch darum, nicht erkennbar zu sein

C&W-Angriff {{3}}"

"- Modell-Ensembling:

" Modell-Ensembling {{1}}"

"- PyTorchs Robustness-Toolbox:

Gradientenmaskierung:
- Trainingsdaten variieren, um ausnutzbare Muster zu verbergen

" Python Robustness Toolbox

Gradient Masking

Regularisierungstechniken {{3}}"

¹ https://adversarial-robustness-toolbox.readthedocs.io/en/latest/, https://stock.adobe.com/ie/contributor/209161356/designer-s-circle

Deep Learning für Text mit PyTorch