Adversarielle Angriffe auf Textklassifikationsmodelle

Deep Learning für Text mit PyTorch

Shubham Jain

Instructor

Was sind adversarielle Angriffe?

"- Anpassungen an den Eingabedaten

  • Nicht zufällige, sondern gezielt böswillige Veränderungen
  • Können die Entscheidungsfindung der KI drastisch beeinflussen {{3}}"
Deep Learning für Text mit PyTorch

Bedeutung der Robustheit

"- KI-Systeme entscheiden, ob Nutzerkommentare toxisch oder harmlos sind

  • KI verstärkt unbeabsichtigt negative Stereotype aus voreingenommenen Daten
  • KI gibt irreführende Informationen aus {{3}}"
Deep Learning für Text mit PyTorch

Fast Gradient Sign Method (FGSM)

"- Nutzt die Lerninformationen des Modells aus

  • Nimmt die kleinstmögliche Änderung vor, um das Modell zu täuschen

FGSM-Angriff {{3}}"

Deep Learning für Text mit PyTorch

Projizierter Gradientenabstieg (PGD)

"- Fortschrittlicher als FGSM: Es ist iterativ

  • Versucht, die effektivste Störung zu finden

PGD-Angriff {{3}}"

Deep Learning für Text mit PyTorch

Der Carlini-&-Wagner-(C&W)-Angriff

"- Konzentriert sich auf die Optimierung der Verlustfunktion

  • Es geht nicht nur darum, zu täuschen, sondern auch darum, nicht erkennbar zu sein

C&W-Angriff {{3}}"

Deep Learning für Text mit PyTorch

"Verteidigungsaufbau: Strategien"

"- Modell-Ensembling:

  • Verwendung mehrerer Modelle
  • Robuste Datenaugmentation:
    • Datenaugmentation
  • Adversariales Training:
    • Täuschung antizipieren"

"Modell-Ensembling {{1}}"

Deep Learning für Text mit PyTorch

"Verteidigungen aufbauen: Werkzeuge & Techniken"

"- PyTorchs Robustness-Toolbox:

  • Textmodelle stärken
  • Gradientenmaskierung:
    • Trainingsdaten variieren, um ausnutzbare Muster zu verbergen
  • Regularisierungstechniken:
    • Modellbalance sicherstellen{{3}}"

"Python Robustness Toolbox

Gradient Masking

Regularisierungstechniken {{3}}"

1 https://adversarial-robustness-toolbox.readthedocs.io/en/latest/, https://stock.adobe.com/ie/contributor/209161356/designer-s-circle
Deep Learning für Text mit PyTorch

Nun kannst du wieder etwas üben!

Deep Learning für Text mit PyTorch

Preparing Video For Download...