Preocupaciones y consideraciones sobre datos

Conceptos de grandes modelos lingüísticos (LLM)

Vidhi Chugh

AI strategist and ethicist

Consideraciones sobre los datos

Consideraciones sobre los datos

Volumen de datos y potencia de cálculo
Calidad de los datos
Etiquetado
Sesgo
Privacidad

Volumen de datos y potencia de cálculo

Los LLM necesitan una gran cantidad de datos.
- Similar a un niño que aprende a hablar.
- 570 GB, aproximadamente 1,3 millones de libros.

Niño aprendiendo a hablar

¹ Freepik

Volumen de datos y potencia de cálculo

Los LLM necesitan una gran cantidad de datos.
- Similar a un niño que aprende a hablar.
- 570 GB, aproximadamente 1,3 millones de libros.

Gran potencia informática; piensa en el consumo energético.

¡Puede costar millones de dólares!

Hombre trabajando en un ordenador conectado a un gran servidor.

Calidad de los datos

Los datos de calidad son esenciales.

Datos precisos = mejor aprendizaje = mejor calidad de respuesta = mayor confianza

Un niño aprendiendo a hablar
- Entrada sin sentido -> salida sin sentido

Obtendremos resultados de baja calidad si entrenamos los LLM con datos llenos de errores o con una gramática deficiente

Datos etiquetados

Etiquetado correcto de los datos: aprendizaje adecuado, patrones capaces de generalizar, respuestas precisas.
Requiere mucho trabajo: asignar la etiqueta correcta a cada artículo.

Equipo trabajando en ordenadores para etiquetar datos

Las etiquetas incorrectas afectan al rendimiento del modelo.
Errores de dirección: identificar -> analizar -> iterar

Sesgo de los datos

Influencia de los estereotipos sociales
Falta de diversidad en los datos de entrenamiento
Discriminación y resultados injustos

Detectar y gestionar los datos sesgados
- Evaluar los desequilibrios en los datos
- Promover la diversidad
- Técnicas para mitigar los sesgos: ejemplos más diversos

Sesgo de datos

Ejemplo:
- "The nurse said that..." -> Si se identifica "nurse" (enfermera) con género femenino

Privacidad de los datos

Cumplimiento de las normas de protección de datos y privacidad.

La privacidad es una preocupación.
- El entrenamiento con datos sin permiso puede dar lugar a una infracción.
- Daños legales, financieros y reputacionales

Información confidencial o personalmente identificable (PII)

Obtener permiso

Privacidad de los datos

¡Vamos a practicar!

Conceptos de grandes modelos lingüísticos (LLM)

Preparing Video For Download...