Adversariële aanvallen op tekstclassificatiemodellen

Deep Learning voor tekst met PyTorch

Shubham Jain

Instructor

Wat zijn adversariële aanvallen?

Kleine tweaks aan inputdata
Niet willekeurig maar berekende, kwaadaardige wijzigingen
Kunnen AI-beslissingen sterk beïnvloeden

Belang van robuustheid

AI die beslist of reacties toxisch of oké zijn
AI die negatieve stereotypen uit scheve data versterkt
AI die misleidende info geeft

Fast Gradient Sign Method (FGSM)

Misbruikt wat het model heeft geleerd
Maakt minimale aanpassing om te misleiden

FGSM-aanval

Projected Gradient Descent (PGD)

Geavanceerder dan FGSM: iteratief
Zoekt de meest effectieve verstoring

PGD-aanval

De Carlini & Wagner (C&W)-aanval

Richt zich op het optimaliseren van de verliesfunctie
Niet alleen misleiden, maar ook ondetecteerbaar zijn

C&W-aanval

Verdedigingen opbouwen: strategieën

Model-ensembling:
- Gebruik meerdere modellen

Robuuste data-augmentatie:
- Data-augmentatie

Adversariële training:
- Anticipeer op misleiding

Model-ensembling

Verdedigingen opbouwen: tools en technieken

PyTorch's Robustness Toolbox:
- Versterk tekstmodellen

Gradient masking:
- Voeg variatie toe aan trainingsdata om misbruikbare patronen te verbergen

Regularisatietechnieken:
- Zorg voor modelbalans

Python Robustness toolbox

Gradient masking

Regularisatietechnieken

¹ https://adversarial-robustness-toolbox.readthedocs.io/en/latest/, https://stock.adobe.com/ie/contributor/209161356/designer-s-circle

Laten we oefenen!

Deep Learning voor tekst met PyTorch

Preparing Video For Download...