Términos y conceptos de calidad de datos

Introducción a la calidad de datos

Chrissy Bloom

Head of Enterprise Data Strategy & Governance

Definir la calidad de los datos

  • Calidad de los datos: medida del grado de adecuación de los datos a su finalidad
  • Buena calidad de los datos = confianza en los datos
    • Mejores decisiones empresariales
    • Procesos empresariales mejor equipados
  • A menudo se presupone una buena calidad de los datos
  • La calidad de los datos debe medirse y controlarse para garantizar que son adecuados para su uso.

Tabla de datos

Introducción a la calidad de datos

Definir las dimensiones de la calidad de los datos

Dimensión de calidad de los datos: Medida de un atributo específico de la calidad

  • Utiliza las dimensiones de la calidad de los datos para cuantificar su adecuación.
    • Integridad
    • Validez
    • Unicidad
    • Coherencia
    • Puntualidad
    • Exactitud

cubo

Introducción a la calidad de datos

Integridad como dimensión de la calidad

cuadrícula cuadrada

Integridad:

  • Nivel del conjunto de datos: mide el grado de presencia de todos los registros previstos.
  • Nivel de elementos de datos: mide el grado en que todos los registros tienen los datos rellenados.
  • Problemas empresariales debidos a datos incompletos:
    • Las cifras pueden estar sesgadas
    • Los clientes pueden verse afectados
Introducción a la calidad de datos

Ejemplo de integridad

Tabla de datos

Todos los registros deben tener un valor rellenado en el campo CustomerName.

Introducción a la calidad de datos

La validez como dimensión de la calidad de los datos

Validez: mide el grado de validez de los valores de un elemento de datos

  • Requiere contexto empresarial
  • Se debe definir una lista o los criterios de valores válidos
  • Medida numérica de la validez = recuento de válidos/recuento total

cuadrícula cuadrada

Introducción a la calidad de datos

Ejemplo de validez

tabla de datos

  • El valor de CustomerBirthDate debe ser una fecha futura.
  • El valor de CustomerAccountType debe ser Préstamo o Depósito.
  • El valor de LatestAccountOpenDate debe ser una fecha pasada.
Introducción a la calidad de datos

La unicidad como dimensión de la calidad de los datos

cuadrado a rayas

Unicidad: mide el grado en que los registros de un conjunto de datos no están duplicados

  • Requiere un contexto empresarial para definir los criterios de determinación de los registros únicos
  • Puede ser necesario buscar duplicados en una o varias columnas para identificar errores
Introducción a la calidad de datos

Ejemplo de unicidad

Tabla de datos

Todos los registros deben tener un único CustomerID y CustomerName.

Introducción a la calidad de datos

¡Vamos a practicar!

Introducción a la calidad de datos

Preparing Video For Download...