Componentes para entrenar LLM

Conceptos de grandes modelos lingüísticos (LLM)

Vidhi Chugh

AI strategist and ethicist

¿Dónde estamos?

Imagen que muestra el progreso del aprendizaje como preentrenamiento.

Conceptos de grandes modelos lingüísticos (LLM)

Preentrenamiento generativo

 

  • Entrenado mediante preentrenamiento generativo.

    • Datos de entrada de tokens de texto
    • Entrenado para predecir los tokens dentro del conjunto de datos.

 

  • Tipos:
    • Predicción de la siguiente palabra
    • Modelado de lenguaje enmascarado
Conceptos de grandes modelos lingüísticos (LLM)

Predicción de la siguiente palabra

  • Técnica de aprendizaje supervisado
    • Modelo entrenado con pares de entrada-salida

 

  • Predice la siguiente palabra y genera un texto coherente.
  • Captura las dependencias entre palabras.

 

  • Datos de entrenamiento
    • Pares de ejemplos de entrada y salida

Sugerencia automática de un motor de búsqueda

Conceptos de grandes modelos lingüísticos (LLM)

Datos de entrenamiento para la predicción de la siguiente palabra

Entrada

El rápido marrón

El rápido zorro marrón

El rápido zorro marrón salta

El rápido zorro marrón salta por encima de

El rápido zorro marrón salta sobre el

El rápido zorro marrón salta sobre el perezoso

El rápido zorro marrón salta sobre el perro perezoso.

Salida

zorro

salta

sobre

el

perezoso

perro

Conceptos de grandes modelos lingüísticos (LLM)

¿Qué palabra se relaciona más con la pizza?

 

  • Más ejemplos = mejor predicción

 

  • Por ejemplo:
    • Me encanta comer pizza con _ _ _ _ _ _

 

  • El queso está más relacionado con la pizza que con cualquier otra cosa.

Probabilidades de asociación de diferentes palabras con la palabra "pizza"

Conceptos de grandes modelos lingüísticos (LLM)

Modelado de lenguaje enmascarado

  • Oculta una palabra selectiva.

  • El modelo entrenado predice la palabra enmascarada.

 

  • Texto original: El rápido zorro marrón salta sobre el perro perezoso.

  • Texto enmascarado: El rápido zorro [MASK] salta sobre el perro perezoso.

 

  • Objetivo: predecir la palabra que falta.

  • Basado en los conocimientos adquiridos a partir de los datos de entrenamiento.

Conceptos de grandes modelos lingüísticos (LLM)

¡Vamos a practicar!

Conceptos de grandes modelos lingüísticos (LLM)

Preparing Video For Download...