Attaques adversariales sur les modèles de classification de texte

Deep Learning pour le texte avec PyTorch

Shubham Jain

Instructor

Que sont les attaques adversariales ?

"- Modifications des données d'entrée

  • Changements malveillants calculés, non aléatoires
  • Peuvent affecter de manière drastique la prise de décision de l'IA {{3}}"
Deep Learning pour le texte avec PyTorch

Importance de la robustesse

"- Les systèmes d'IA décidant si les commentaires des utilisateurs sont toxiques ou bénins

  • L'IA amplifiant involontairement des stéréotypes négatifs à partir de données biaisées
  • L'IA fournissant des informations trompeuses {{3}}"
Deep Learning pour le texte avec PyTorch

Méthode du Signe du Gradient Rapide (FGSM)

"- Exploite les informations d'apprentissage du modèle

  • Effectue le plus petit changement possible pour tromper le modèle

    Attaque FGSM {{3}}"

Deep Learning pour le texte avec PyTorch

Descente de gradient projetée (PGD)

"- Plus avancé que FGSM : il est itératif

  • Tente de trouver la perturbation la plus efficace

    Attaque PGD {{3}}"

Deep Learning pour le texte avec PyTorch

L’attaque de Carlini & Wagner (C&W)

"- Se concentre sur l’optimisation de la fonction de perte

  • Il ne s’agit pas seulement de tromper, mais d’être indétectable

    Attaque C&W {{3}}"

Deep Learning pour le texte avec PyTorch

"Élaboration de défenses : stratégies"

"- Assemblage de modèles :

  • Utiliser plusieurs modèles
  • Augmentation de données robuste :
    • Augmentation de données
  • Entraînement adversarial :
    • Anticiper la tromperie"

"Assemblage de modèles {{1}}"

Deep Learning pour le texte avec PyTorch

"Mise en place de défenses : outils et techniques"

"- Boîte à outils de robustesse de PyTorch :

  • Renforcer les modèles de texte
  • Masquage de gradient :
    • Ajouter de la variété aux données d’entraînement pour masquer les schémas exploitables
  • Techniques de régularisation :
    • Garantir l’équilibre du modèle{{3}}"

"Boîte à outils de robustesse Python

Masquage de gradient

Techniques de régularisation {{3}}"

1 https://adversarial-robustness-toolbox.readthedocs.io/en/latest/, https://stock.adobe.com/ie/contributor/209161356/designer-s-circle
Deep Learning pour le texte avec PyTorch

Passons à la pratique !

Deep Learning pour le texte avec PyTorch

Preparing Video For Download...