Limpieza de datos

Conceptos de almacenamiento de datos

Aaren Stubberfield

Data Scientist

Agenda del video

  • Revisión de formato de datos
  • Análisis de direcciones
  • Validación de datos
  • Eliminación de duplicados
Conceptos de almacenamiento de datos

Limpieza de formato de datos

  • Convertir valores al formato esperado
    • Fechas
    • Nombres de opciones
    • Capitalización
  • Garantiza una salida consistente

Ejemplo de datos de taxi

Dos tablas combinadas en una

Conceptos de almacenamiento de datos

Análisis de direcciones

  • Dividir una dirección en sus componentes
  • Se pueden usar herramientas para validar direcciones
Dirección
1234 S Normal St, Cleveland, OH 44102
Dirección Ciudad Estado Código postal
1234 S Normal St Cleveland OH 44102
Conceptos de almacenamiento de datos

Validación de datos

  • Comprobación de rango
    • ¿El valor está en el rango esperado?
    • Ejemplo: la edad de una persona
  • Comprobación de tipo
    • ¿El valor tiene el tipo de dato correcto?
    • Ejemplo: guardar la edad como cadena vs número

Tabla de edades con la primera fila como 300, marcada como no válida.

Tabla con tres columnas; Edad es la primera y tiene tipo de dato cadena, marcado como no válido.

Conceptos de almacenamiento de datos

Eliminación de duplicados

  • Este proceso elimina filas duplicadas

imagen de dos tablas con dos columnas que se van a unir

la tabla final unida sin la fila duplicada

Conceptos de almacenamiento de datos

Gobernanza de datos

Ilustración de cumplimiento normativo

Conceptos de almacenamiento de datos

¡Vamos a practicar!

Conceptos de almacenamiento de datos

Preparing Video For Download...