Términos y conceptos de calidad de datos

Introducción a la calidad de datos

Chrissy Bloom

Head of Enterprise Data Strategy & Governance

Definición de calidad de datos

  • Calidad de datos: medida del grado en que los datos sirven para su propósito
  • Buena calidad de datos = confianza en los datos
    • Mejores decisiones de negocio
    • Procesos de negocio mejor preparados
  • A menudo se asume buena calidad de datos
  • Hay que medir y monitorizar la calidad para asegurar que los datos sirven.

tabla de datos

Introducción a la calidad de datos

Definición de dimensiones de calidad de datos

Dimensión de calidad de datos: medida de un atributo específico de la calidad de los datos

  • Usa dimensiones de calidad para cuantificar si los datos sirven al propósito.
    • Integridad
    • Validez
    • Unicidad
    • Consistencia
    • Actualidad
    • Precisión

cubo

Introducción a la calidad de datos

Integridad como dimensión de calidad de datos

rejilla cuadrada

Integridad:

  • A nivel de dataset: mide en qué grado están todos los registros esperados.
  • A nivel de elemento: mide en qué grado todos los registros tienen datos cuando toca.
  • Problemas de negocio por datos incompletos:
    • Las cifras pueden sesgarse
    • Los clientes pueden verse afectados
Introducción a la calidad de datos

Ejemplo de integridad

tabla de datos

Todos los registros deben tener un valor en el campo CustomerName.

Introducción a la calidad de datos

Validez como dimensión de calidad de datos

Validez: mide en qué grado los valores de un elemento de datos son válidos

  • Requiere contexto de negocio
  • Define una lista o criterios de valores válidos
  • Medida numérica de validez = válidos/total

rejilla cuadrada

Introducción a la calidad de datos

Ejemplo de validez

tabla de datos

  • CustomerBirthDate debe ser una fecha pasada.
  • CustomerAccountType debe ser Loan o Deposit.
  • LatestAccountOpenDate debe ser una fecha pasada.
Introducción a la calidad de datos

Unicidad como dimensión de calidad de datos

cuadro a rayas

Unicidad: mide en qué grado los registros de un dataset no están duplicados

  • Requiere contexto de negocio para definir qué hace único a un registro
  • Puede que debas buscar duplicados en una o varias columnas para detectar errores
Introducción a la calidad de datos

Ejemplo de unicidad

tabla de datos

Todos los registros deben tener un CustomerID y un CustomerName únicos.

Introducción a la calidad de datos

¡Vamos a practicar!

Introducción a la calidad de datos

Preparing Video For Download...