Adversariële aanvallen op tekstclassificatiemodellen

Deep Learning voor tekst met PyTorch

Shubham Jain

Instructor

Wat zijn adversariële aanvallen?

  • Kleine tweaks aan inputdata
  • Niet willekeurig maar berekende, kwaadaardige wijzigingen
  • Kunnen AI-beslissingen sterk beïnvloeden
Deep Learning voor tekst met PyTorch

Belang van robuustheid

  • AI die beslist of reacties toxisch of oké zijn
  • AI die negatieve stereotypen uit scheve data versterkt
  • AI die misleidende info geeft
Deep Learning voor tekst met PyTorch

Fast Gradient Sign Method (FGSM)

  • Misbruikt wat het model heeft geleerd
  • Maakt minimale aanpassing om te misleiden

FGSM-aanval

Deep Learning voor tekst met PyTorch

Projected Gradient Descent (PGD)

  • Geavanceerder dan FGSM: iteratief
  • Zoekt de meest effectieve verstoring

PGD-aanval

Deep Learning voor tekst met PyTorch

De Carlini & Wagner (C&W)-aanval

  • Richt zich op het optimaliseren van de verliesfunctie
  • Niet alleen misleiden, maar ook ondetecteerbaar zijn

C&W-aanval

Deep Learning voor tekst met PyTorch

Verdedigingen opbouwen: strategieën

  • Model-ensembling:
    • Gebruik meerdere modellen

 

  • Robuuste data-augmentatie:
    • Data-augmentatie

 

  • Adversariële training:
    • Anticipeer op misleiding

Model-ensembling

Deep Learning voor tekst met PyTorch

Verdedigingen opbouwen: tools en technieken

  • PyTorch's Robustness Toolbox:
    • Versterk tekstmodellen

 

  • Gradient masking:
    • Voeg variatie toe aan trainingsdata om misbruikbare patronen te verbergen

 

  • Regularisatietechnieken:
    • Zorg voor modelbalans

Python Robustness toolbox

Gradient masking

Regularisatietechnieken

1 https://adversarial-robustness-toolbox.readthedocs.io/en/latest/, https://stock.adobe.com/ie/contributor/209161356/designer-s-circle
Deep Learning voor tekst met PyTorch

Laten we oefenen!

Deep Learning voor tekst met PyTorch

Preparing Video For Download...