Almacenes de datos frente a lagos de datos
Comprender la ingeniería de datos
Hadrien Lacroix
Content Developer
Almacenes con impresionantes vistas al lago
Lagos de datos y almacenes de datos
Lago de datos
Almacena todos los datos brutos
Pueden ser petabytes (1 millón de GBs)
Almacena todas las estructuras de datos
Rentable
Difícil de analizar
Requiere un catálogo de datos actualizado
Utilizado por los científicos de datos
Big data, análisis en tiempo real
Almacén de datos
Datos específicos para un uso específico
Relativamente pequeño
Almacena principalmente datos estructurados
Más costoso de actualizar
Optimizado para el análisis de datos
También lo utilizan los analistas de datos y los analistas empresariales
Consultas ad hoc de solo lectura
Catálogo de datos para lagos de datos
¿Cuál es la fuente de estos datos?
¿Dónde se utilizan estos datos?
¿Quién es el propietario de los datos?
¿Con qué frecuencia se actualizan estos datos?
Buenas prácticas en materia de gobernanza de datos
Garantiza la reproducibilidad
Sin catálogo --> pantano de datos
Buenas prácticas para cualquier solución de almacenamiento de datos
Fiabilidad
Autonomía
Escalabilidad
Velocidad
Base de datos frente a almacén de datos
Base de datos:
Término general
Definido en sentido amplio como
los datos organizados almacenados y a los que se accede en un ordenador
Un almacén de datos es un tipo de base de datos
Resumen
Lagos de datos
Almacenes de datos
Bases de datos
Catálogo de datos
¡Vamos a practicar!
Comprender la ingeniería de datos
Preparing Video For Download...