Préoccupations et considérations relatives aux données

Concepts des grands modèles de langage (LLM)

Vidhi Chugh

AI strategist and ethicist

Considérations relatives aux données

 

Considérations relatives aux données

 

  • Volume de données et puissance de calcul
  • Qualité des données
  • Étiquetage
  • Partis pris (biais)
  • Vie privée
Concepts des grands modèles de langage (LLM)

Volume de données et puissance de calcul

  • Les LLM nécessitent une grande quantité de données.
    • À l'instar d'un enfant qui apprend à parler
    • 570 Go, environ 1,3 million de livres

 

Enfant apprenant à parler

1 Freepik
Concepts des grands modèles de langage (LLM)

Volume de données et puissance de calcul

  • Les LLM nécessitent une grande quantité de données.
    • À l'instar d'un enfant qui apprend à parler
    • 570 Go, environ 1,3 million de livres

 

  • Une puissance de calcul considérable ; pensez à la consommation d'énergie.

 

  • Cela peut coûter des millions de dollars !

Un homme travaillant sur un ordinateur connecté à un grand serveur

Concepts des grands modèles de langage (LLM)

Qualité des données

  • La qualité des données est essentielle

 

  • Des données précises = un meilleur entraînement = une meilleure qualité de réponse = une confiance accrue

 

  • Un enfant qui apprend à parler
    • Charabia entrant -> charabia sortant

des résultats de faible qualité si nous entraînons les LLM avec des données contenant de nombreuses erreurs ou une grammaire incorrecte

Concepts des grands modèles de langage (LLM)

Données étiquetées

  • Étiquette de données correcte : entraînement précis, généralisation des modèles, réponses précises

  • Travail exigeant : attribution de l'étiquette appropriée à chaque article

Équipe travaillant sur des ordinateurs pour étiqueter des données

  • Les étiquettes incorrectes détériorent les performances du modèle.
  • Erreurs d'adresse : identifier -> analyser -> itérer
Concepts des grands modèles de langage (LLM)

Biais dans les données

  • Influencé par les stéréotypes sociaux
  • Manque de diversité dans les données d'entraînement
  • Discrimination et résultats injustes

 

  • Identifier et traiter les données biaisées
    • Évaluer les déséquilibres dans les données
    • Promouvoir la diversité
    • Techniques d'atténuation des biais : exemples plus diversifiés

Biais dans les données

  • Exemple :

    • « Les chefs de cuisine ont dit... » -> « ils » ou « leurs »
Concepts des grands modèles de langage (LLM)

Confidentialité des données

  • Respect des réglementations en matière de protection des données et de confidentialité

 

  • La confidentialité est une préoccupation.
    • L’entraînement à partir de données sans autorisation peut entraîner une violation.
    • Préjudice juridique, financier et lié à la réputation
  • Informations sensibles ou personnelles identifiables (PII)

 

  • Obtenir l'autorisation

Confidentialité des données

Concepts des grands modèles de langage (LLM)

Passons à la pratique !

Concepts des grands modèles de langage (LLM)

Preparing Video For Download...