Dificultades habituales con los datos

Introducción a la alfabetización en datos

Jess Ahmet

Content Developer, DataCamp

Datos sucios

  • Los datos sucios son:

    • Incorrectos
    • Incompletos
    • Inconsistentes
  • Causados por errores humanos, problemas técnicos o problemas con el proceso de recogida de datos

  • Principio de basura entrante, basura saliente: los datos sucios pueden llevar a conclusiones erróneas

Ventana sucia

Introducción a la alfabetización en datos

Errores en los datos

  • Los datos son incorrectos o incoherentes
  • Suele deberse a un error humano o técnico al registrar el valor o el formato
  • Técnicas para contrarrestar:
    • Si se conoce el valor original o el formato válido: datos correctos
    • Si se desconoce: abandona los datos

Puzle con la pieza equivocada

Introducción a la alfabetización en datos

Datos que faltan

  • Los datos están incompletos
  • Problemático si:
    • Faltan muchos datos
    • Hay patrones subyacentes en los datos que faltan
  • Técnicas para contrarrestar:
    • Abandonar datos
    • Imputar

Puzle al que le falta una pieza

Introducción a la alfabetización en datos

Sesgo de los datos

  • El sesgo social puede reflejarse en los datos como sesgo de los datos
  • Conduce a datos no representativos y, por tanto, a resultados
  • Difícil de detectar y resolver
  • Técnicas para contrarrestar:
    • Proceso sólido de recolección de datos
    • Consciencia en las conclusiones
    • Modelos de IA explicables

Puzle gris sin piezas blancas

Introducción a la alfabetización en datos

Limpieza de datos

  • Conjunto de técnicas para contrarrestar los problemas de datos
  • Paso importante de preparación para cualquier análisis de datos
  • Pero no todos los problemas de datos son (completamente) solucionables
  • Siempre es posible hacer algún tipo de análisis

Mano enguantada con pulverizador

Introducción a la alfabetización en datos

Es hora de la práctica.

Introducción a la alfabetización en datos

Preparing Video For Download...