Ajuste fino avanzado

Conceptos de grandes modelos lingüísticos (LLM)

Vidhi Chugh

AI strategist and ethicist

¿Dónde estamos?

Imagen de progreso que muestra que estamos en la fase avanzada de ajuste fino.

Conceptos de grandes modelos lingüísticos (LLM)

Aprendizaje por refuerzo a través de la retroalimentación humana

 

  • Preentrenamiento

 

  • Ajuste fino

 

  • Aprendizaje por refuerzo a través de la retroalimentación humana (RLHF)

 

Ilustración de cuatro personas dando opiniones positivas mediante emojis y estrellas.

Conceptos de grandes modelos lingüísticos (LLM)

Preentrenamiento

  • Grandes cantidades de datos de texto:
    • Sitios web, libros y artículos
    • Arquitectura del transformador
    • Aprende patrones lingüísticos generales, gramática y datos.

 

  • Predicción de la siguiente palabra
  • Modelado de lenguaje enmascarado

Proceso de preentrenamiento para crear los LLM

1 Freepik
Conceptos de grandes modelos lingüísticos (LLM)

Ajuste fino

 

  • Entrenamiento N-shot

 

  • Pequeño conjunto de datos etiquetados para tareas relacionadas

Proceso de ajuste fino

Conceptos de grandes modelos lingüísticos (LLM)

Pero, ¿por qué RLHF?

  • Los datos de entrenamiento de uso general carecen de calidad.
    • Ruido
    • Errores
    • Incoherencias
    • Precisión reducida

Ejemplo de precisión reducida:

  • Entrenado con datos de foros de discusión en línea.
  • Opiniones y hechos sin validar
  • Necesita validación por parte de expertos externos.

 

Blanco de tiro con arco con flechas que no dieron en el blanco.

Conceptos de grandes modelos lingüísticos (LLM)

Comienza con la necesidad de ajustar

  • Preentrenamiento
    • Aprende los patrones lingüísticos subyacentes.
    • No capta las complejidades específicas del contexto.

 

  • Ajuste fino
    • Los datos bien etiquetados mejoran el rendimiento.

 

  • ¡Entra en RLHF!
    • Comentarios de personas
Conceptos de grandes modelos lingüísticos (LLM)

Simplificación de RLHF

 

  • Resultados del modelo revisados por personas
  • Actualiza el modelo basándose en los comentarios.

 

  • Paso 1:
    • Recibe un prompt.
    • Genera múltiples respuestas.

 

 

Un LLM que consume un prompt de entrada y genera una respuesta.

Conceptos de grandes modelos lingüísticos (LLM)

Entra el experto humano.

 

  • Paso 2:
    • Un experto humano comprueba estas respuestas.
    • Clasifica las respuestas según su calidad.
      • Precisión
      • Relevancia
      • Coherencia

Añadir verificación humana a la respuesta de los LLM

Conceptos de grandes modelos lingüísticos (LLM)

Retroalimentación

  • Paso 3:
    • Aprende de la clasificación de los expertos.
    • Para adaptar su respuesta en el futuro a sus preferencias.

 

  • ¡Y sigue!
    • Sigue generando respuestas.
    • Recibe clasificaciones de expertos.
    • Ajusta el aprendizaje.

 

 

La respuesta humana alimenta el LLM.

Conceptos de grandes modelos lingüísticos (LLM)

Resumen

  • Preentrenamiento para adquirir conocimientos generales del idioma.

 

  • Ajuste para tareas específicas.

 

  • Técnicas RLHF para mejorar el ajuste fino mediante la retroalimentación humana.

 

  • ¡La combinación es muy eficaz!
Conceptos de grandes modelos lingüísticos (LLM)

Completar el LLM

El proceso completo de formación LLM

Conceptos de grandes modelos lingüísticos (LLM)

¡Vamos a practicar!

Conceptos de grandes modelos lingüísticos (LLM)

Preparing Video For Download...