¿Cuál es la diferencia entre data warehouses y data lakes?

Conceptos de almacenamiento de datos

Aaren Stubberfield

Data Scientist

Base de datos

  • Datos estructurados en filas y columnas
  • Las bases de datos transaccionales guardan transacciones

Tres tablas de base de datos

Conceptos de almacenamiento de datos

Data warehouse

  • Reunir datos, integrarlos y habilitarlos para análisis
  • Muchas fuentes de entrada
  • Guarda datos estructurados
  • Cambiar es complejo
    • Considerar efectos aguas arriba y abajo
  • Normalmente >100 GB

Tres tablas de base de datos alimentando un data warehouse

Conceptos de almacenamiento de datos

¿Por qué el data warehouse?

  • Qué tan rápido corre la consulta con muchos datos
  • Evitar frenar la base de datos transaccional

Persona frustrada por datos lentos

Conceptos de almacenamiento de datos

Data marts

  • Base de datos relacional para análisis
  • Datos centrados en un solo tema
  • Pocas fuentes de entrada
  • Normalmente <100 GB

Un data warehouse alimenta un data mart

Conceptos de almacenamiento de datos

Data lake

  • Almacén de datos de toda la organización
    • Incluye datos de muchos departamentos
    • Muchas fuentes de entrada
    • Normalmente >100 GB
  • Guarda datos estructurados y no estructurados
    • Ejemplos: vídeo, audio y documentos

Archivo de audio y video y una base de datos alimentando un data lake

Conceptos de almacenamiento de datos

Data lake

  • Menos complejo de cambiar
    • Menos efectos aguas arriba y abajo a considerar
  • Puede no conocerse el propósito de los datos
    • Menos organizado

archivo de audio y video y una base de datos alimentando un data lake

Conceptos de almacenamiento de datos

Resumen

Característica Data Warehouse Data Mart Data Lake
Estructura de datos Estructurados Estructurados Estructurados y no estructurados
Complejidad de cambio Complejo Complejo Menos complejo
Propósito de los datos Conocido Conocido Puede no conocerse
Cobertura de departamentos Cubre muchos Cubre uno Cubre muchos
Fuentes de datos Muchas fuentes Pocas fuentes Muchas fuentes
Tamaño típico >100 GB <100 GB >100 GB
Conceptos de almacenamiento de datos

¡Vamos a practicar!

Conceptos de almacenamiento de datos

Preparing Video For Download...