Preocupaciones y consideraciones sobre datos

Conceptos de grandes modelos lingüísticos (LLM)

Vidhi Chugh

AI strategist and ethicist

Consideraciones sobre los datos

 

Consideraciones sobre los datos

 

  • Volumen de datos y potencia de cálculo
  • Calidad de los datos
  • Etiquetado
  • Sesgo
  • Privacidad
Conceptos de grandes modelos lingüísticos (LLM)

Volumen de datos y potencia de cálculo

  • Los LLM necesitan una gran cantidad de datos.
    • Similar a un niño que aprende a hablar.
    • 570 GB, aproximadamente 1,3 millones de libros.

 

Niño aprendiendo a hablar

1 Freepik
Conceptos de grandes modelos lingüísticos (LLM)

Volumen de datos y potencia de cálculo

  • Los LLM necesitan una gran cantidad de datos.
    • Similar a un niño que aprende a hablar.
    • 570 GB, aproximadamente 1,3 millones de libros.

 

  • Gran potencia informática; piensa en el consumo energético.

 

  • ¡Puede costar millones de dólares!

Hombre trabajando en un ordenador conectado a un gran servidor.

Conceptos de grandes modelos lingüísticos (LLM)

Calidad de los datos

  • Los datos de calidad son esenciales.

 

  • Datos precisos = mejor aprendizaje = mejor calidad de respuesta = mayor confianza

 

  • Un niño aprendiendo a hablar
    • Entrada sin sentido -> salida sin sentido

Obtendremos resultados de baja calidad si entrenamos los LLM con datos llenos de errores o con una gramática deficiente

Conceptos de grandes modelos lingüísticos (LLM)

Datos etiquetados

  • Etiquetado correcto de los datos: aprendizaje adecuado, patrones capaces de generalizar, respuestas precisas.

  • Requiere mucho trabajo: asignar la etiqueta correcta a cada artículo.

Equipo trabajando en ordenadores para etiquetar datos

  • Las etiquetas incorrectas afectan al rendimiento del modelo.
  • Errores de dirección: identificar -> analizar -> iterar
Conceptos de grandes modelos lingüísticos (LLM)

Sesgo de los datos

  • Influencia de los estereotipos sociales
  • Falta de diversidad en los datos de entrenamiento
  • Discriminación y resultados injustos

 

  • Detectar y gestionar los datos sesgados
    • Evaluar los desequilibrios en los datos
    • Promover la diversidad
    • Técnicas para mitigar los sesgos: ejemplos más diversos

Sesgo de datos

  • Ejemplo:

    • "The nurse said that..." -> Si se identifica "nurse" (enfermera) con género femenino
Conceptos de grandes modelos lingüísticos (LLM)

Privacidad de los datos

  • Cumplimiento de las normas de protección de datos y privacidad.

 

  • La privacidad es una preocupación.
    • El entrenamiento con datos sin permiso puede dar lugar a una infracción.
    • Daños legales, financieros y reputacionales
  • Información confidencial o personalmente identificable (PII)

 

  • Obtener permiso

Privacidad de los datos

Conceptos de grandes modelos lingüísticos (LLM)

¡Vamos a practicar!

Conceptos de grandes modelos lingüísticos (LLM)

Preparing Video For Download...