Présentation du traitement du langage naturel

Concepts des grands modèles de langage (LLM)

Vidhi Chugh

AI strategist and ethicist

Où sommes-nous ?

Tableau de progression illustrant la première étape, à savoir le prétraitement du texte.

Concepts des grands modèles de langage (LLM)

Pré-traitement du texte

  • Peut être effectué dans un ordre différent, car ces tâches sont indépendantes.

Les trois étapes les plus courantes du prétraitement du texte

Concepts des grands modèles de langage (LLM)

Tokenization

  • Divise le texte en mots individuels ou en tokens.

 

  • Texte :

    • « Travailler avec des techniques de traitement du langage naturel est complexe. »

     

  • Tokenisation :

    • [« Travailler », « avec», « techniques », « traitement », « langage », « naturel », « est », « complexe », ««. »]
    • Convertit en une liste
Concepts des grands modèles de langage (LLM)

Suppression des mots vides

  • Les mots vides n'apportent aucune signification.
  • Éliminés par suppression des mots vides

 

  • Avant la suppression des mots vides :
    • [« Travailler », « avec», « techniques », « de », « traitement », « du », « langage », « naturel », « est », « complexe », ««. »]

 

  • Après suppression des mots vides :
    • [« Travailler », « techniques », « traitement », « langage », « naturel », « complexe », ««. »]
Concepts des grands modèles de langage (LLM)

Lemmatisation

 

  • Regrouper les mots légèrement différents ayant une signification similaire.

 

  • Réduit les mots à leur forme de base

 

  • Associé au mot racine

 

  • Parlant -> Parler

  • Parlé > Parler

  • Parlement > Parler

Concepts des grands modèles de langage (LLM)

Représentation textuelle

Tableau de progression indiquant que nous avons atteint la phase de représentation textuelle

Concepts des grands modèles de langage (LLM)

Représentation textuelle

 

  • Convertir des données textuelles en données numériques

 

  • Sac de mots
  • Plongement lexical

Image représentant la parole sous forme de chiffres

Concepts des grands modèles de langage (LLM)

Sac de mots

 

  • Texte dans une matrice de comptage de mots

Une matrice avec une représentation d’un sac de mots

  • 0 représente l'absence d'un mot
Concepts des grands modèles de langage (LLM)

Sac de mots : limitations

  • Ne reflète pas l'ordre ou le contexte

    • Peut entraîner des interprétations erronées
    • Phrases similaires mais de sens opposé
      • « Le chat a poursuivi la souris avec agilité. »
      • « La souris a poursuivi le chat. »
  • Ne reflète pas la sémantique entre les mots.

    • Traite les mots apparentés comme des entités indépendantes.
    • Comme « chat » et « souris »
Concepts des grands modèles de langage (LLM)

Plongement lexical

  • Capture les significations sémantiques sous forme de chiffres

 

Chat Souris
Plante -0,9 -0,8
Fourrure 0,9 0,7
Carnivore 0,9 -0,8

 

  • Chat [-0,9, 0,9, 0,9]
  • Relation prédateur-proie :

Plongement lexical prédateur-proie

Concepts des grands modèles de langage (LLM)

Formulaire lisible par machine

 

  • Commencer par le prétraitement du texte

Flux de travail de préparation des données

Concepts des grands modèles de langage (LLM)

Formulaire lisible par machine

 

  • Convertir du texte prétraité en format numérique

Flux de travail de préparation des données avec étapes de représentation textuelle

Concepts des grands modèles de langage (LLM)

Passons à la pratique !

Concepts des grands modèles de langage (LLM)

Preparing Video For Download...