Almacenes de datos frente a lagos de datos

Comprender la ingeniería de datos

Hadrien Lacroix

Content Developer

Almacenes con impresionantes vistas al lago

Comprender la ingeniería de datos

canalización

Comprender la ingeniería de datos

Lagos de datos y almacenes de datos

Lago de datos

  • Almacena todos los datos brutos
  • Pueden ser petabytes (1 millón de GBs)
  • Almacena todas las estructuras de datos
  • Rentable
  • Difícil de analizar
  • Requiere un catálogo de datos actualizado
  • Utilizado por los científicos de datos
  • Big data, análisis en tiempo real

Almacén de datos

  • Datos específicos para un uso específico
  • Relativamente pequeño
  • Almacena principalmente datos estructurados
  • Más costoso de actualizar
  • Optimizado para el análisis de datos
  • También lo utilizan los analistas de datos y los analistas empresariales
  • Consultas ad hoc de solo lectura
Comprender la ingeniería de datos

Catálogo de datos para lagos de datos

  • ¿Cuál es la fuente de estos datos?
  • ¿Dónde se utilizan estos datos?
  • ¿Quién es el propietario de los datos?
  • ¿Con qué frecuencia se actualizan estos datos?
  • Buenas prácticas en materia de gobernanza de datos
  • Garantiza la reproducibilidad
  • Sin catálogo --> pantano de datos
  • Buenas prácticas para cualquier solución de almacenamiento de datos
    • Fiabilidad
    • Autonomía
    • Escalabilidad
    • Velocidad
Comprender la ingeniería de datos

Base de datos frente a almacén de datos

  • Base de datos:
    • Término general
    • Definido en sentido amplio como los datos organizados almacenados y a los que se accede en un ordenador
  • Un almacén de datos es un tipo de base de datos
Comprender la ingeniería de datos

Resumen

  • Lagos de datos
  • Almacenes de datos
  • Bases de datos
  • Catálogo de datos
Comprender la ingeniería de datos

¡Vamos a practicar!

Comprender la ingeniería de datos

Preparing Video For Download...