Visión general del Procesamiento del lenguaje natural (PLN)

Conceptos de grandes modelos lingüísticos (LLM)

Vidhi Chugh

AI strategist and ethicist

¿Dónde estamos?

Gráfico de progreso que muestra el primer paso, es decir, el preprocesamiento del texto.

Conceptos de grandes modelos lingüísticos (LLM)

Preprocesamiento del texto

  • Se pueden hacer en un orden diferente, ya que son independientes.

Tres pasos más comunes para el preprocesamiento de texto

Conceptos de grandes modelos lingüísticos (LLM)

Tokenización

  • Divide el texto en palabras individuales o tokens.

 

  • Texto:

    • "Trabajar con técnicas de procesamiento de lenguajes naturales es complicado".

     

  • Tokenización:

    • Se divide en palabras como ["Trabajar", "con", "técnicas", "de", "procesamiento", "de", "lenguajes", "es", "complicado", "."].
    • Convierte en una lista
Conceptos de grandes modelos lingüísticos (LLM)

Eliminación de palabras vacías

  • Las palabras vacías no aportan significado.
  • Eliminado mediante la eliminación de palabras vacías.

 

  • Antes de eliminar las palabras vacías:
    • ["Trabajar", "con", "técnicas", "de", "procesamiento", "de", "lenguajes", "es", "complicado", "."]

 

  • Después de eliminar las palabras vacías:
    • ["Trabajo", "natural", "lenguaje", "procesamiento", "técnicas", "complicado", "."]
Conceptos de grandes modelos lingüísticos (LLM)

Lematización

 

  • Agrupa palabras ligeramente diferentes con significado similar.

 

  • Reduce las palabras a su forma básica.

 

  • Asignado a la raíz de la palabra

 

  • Hablando -> Hablar

  • Habló -> Hablar

  • Habla -> Hablar

Conceptos de grandes modelos lingüísticos (LLM)

Representación textual

Gráfico de progreso que muestra que hemos alcanzado la etapa de representación textual.

Conceptos de grandes modelos lingüísticos (LLM)

Representación textual

 

  • Convertir datos de texto a formato numérico

 

  • Bolsa de palabras
  • Encajes léxicos

Imagen que representa el habla como números.

Conceptos de grandes modelos lingüísticos (LLM)

Bolsa de palabras

 

  • Texto en una matriz de recuento de palabras

Una matriz con una representación de bolsa de palabras

  • 0 representa la ausencia de una palabra.
Conceptos de grandes modelos lingüísticos (LLM)

Bolsa de palabras: limitaciones

  • No capta el orden ni el contexto.

    • Puede dar lugar a interpretaciones incorrectas.
    • Frases similares pero con significado opuesto:
      • El gato persiguió al ratón rápidamente.
      • El ratón persiguió al gato.
  • No capta la semántica entre las palabras.

    • Trata las palabras relacionadas como independientes.
    • Como «gato» y «ratón».
Conceptos de grandes modelos lingüísticos (LLM)

Encajes léxicos

  • Captura los significados semánticos como números.

 

Gato Ratón
Planta -0,9 −0,8
Peludo 0,9 0,7
Carnívoro 0,9 −0,8

 

  • Gato [-0,9; 0,9; 0,9]
  • Relación depredador-presa:

Encajes léxicos depredador-presa

Conceptos de grandes modelos lingüísticos (LLM)

Formulario legible por máquina

 

  • Comienza con el preprocesamiento del texto.

Flujo de trabajo de preparación de datos

Conceptos de grandes modelos lingüísticos (LLM)

Formulario legible por máquina

 

  • Convertir texto preprocesado a formato numérico

Flujo de trabajo de preparación de datos con pasos de representación de texto

Conceptos de grandes modelos lingüísticos (LLM)

¡Vamos a practicar!

Conceptos de grandes modelos lingüísticos (LLM)

Preparing Video For Download...