Attaques adversariales sur les modèles de classification de texte

Deep Learning pour le texte avec PyTorch

Shubham Jain

Instructor

Que sont les attaques adversariales ?

"- Modifications des données d'entrée

"- Les systèmes d'IA décidant si les commentaires des utilisateurs sont toxiques ou bénins

L'IA amplifiant involontairement des stéréotypes négatifs à partir de données biaisées
L'IA fournissant des informations trompeuses {{3}}"

"- Exploite les informations d'apprentissage du modèle

"- Plus avancé que FGSM : il est itératif

"- Se concentre sur l’optimisation de la fonction de perte

"- Assemblage de modèles :

" Assemblage de modèles {{1}}"

"- Boîte à outils de robustesse de PyTorch :

Masquage de gradient :
- Ajouter de la variété aux données d’entraînement pour masquer les schémas exploitables

" Boîte à outils de robustesse Python

Masquage de gradient

Techniques de régularisation {{3}}"

¹ https://adversarial-robustness-toolbox.readthedocs.io/en/latest/, https://stock.adobe.com/ie/contributor/209161356/designer-s-circle

Deep Learning pour le texte avec PyTorch