Qual a diferença entre data warehouse e data lake?

Conceitos de Data Warehousing

Aaren Stubberfield

Data Scientist

Banco de dados

  • Dados estruturados em linhas e colunas
  • Bancos transacionais armazenam transações

Três tabelas de banco de dados

Conceitos de Data Warehousing

Data warehouse

  • Reunir, integrar e disponibilizar dados para análise
  • Muitas fontes de entrada
  • Armazena dados estruturados
  • Complexo de mudar
    • Efeitos a montante e a jusante precisam ser considerados
  • Tamanho típico >100 GB

Três tabelas de banco de dados alimentando um data warehouse

Conceitos de Data Warehousing

Por que o data warehouse?

  • Quão rápido a consulta roda em grande volume de dados
  • Evitar lentidão no banco transacional

Pessoa frustrada com dados lentos

Conceitos de Data Warehousing

Data marts

  • Um banco relacional para análise
  • Dados focados em uma área/sujeito
  • Poucas fontes de entrada
  • Tamanho típico <100 GB

Data warehouse alimentando um data mart

Conceitos de Data Warehousing

Data lake

  • Repositório de dados da organização inteira
    • Contém dados de muitos departamentos
    • Muitas fontes de entrada
    • Tamanho típico >100 GB
  • Armazena dados estruturados e não estruturados
    • Exemplos: vídeo, áudio e documentos

Arquivos de áudio e vídeo e um banco de dados alimentando um data lake

Conceitos de Data Warehousing

Data lake

  • Mais simples de mudar
    • Menos efeitos a montante e a jusante para considerar
  • O propósito dos dados pode não ser conhecido
    • Menos organizado

arquivos de áudio e vídeo e um banco de dados alimentando um data lake

Conceitos de Data Warehousing

Resumo

Recurso Data Warehouse Data Mart Data Lake
Estrutura dos dados Estruturados Estruturados Estruturados e não estruturados
Complexidade para mudar Complexo Complexo Menos complexo
Propósito dos dados Conhecido Conhecido Pode não ser conhecido
Cobertura de departamentos Cobre muitos Cobre só um Cobre muitos
Fontes de dados Muitos sistemas Poucas fontes Muitos sistemas
Tamanho típico >100 GB <100 GB >100 GB
Conceitos de Data Warehousing

Vamos praticar!

Conceitos de Data Warehousing

Preparing Video For Download...