Data warehouses e data lakes

Introdução à Engenharia de Dados

Hadrien Lacroix

Content Developer

Warehouses com vista deslumbrante para o lago

Introdução à Engenharia de Dados

pipeline

Introdução à Engenharia de Dados

Data lakes e data warehouses

Data lake

  • Armazena todos os dados brutos
  • Pode ser de petabytes (1 milhão de GBs)
  • Armazena todas as estruturas de dados
  • Bom custo-benefício
  • Difícil de analisar
  • Requer um catálogo de dados atualizado
  • Usado por cientistas de dados
  • Big data, análise em tempo real

Data warehouse

  • Dados específicos para uso específico
  • Relativamente pequeno
  • Armazena principalmente dados estruturados
  • Mais caro para atualizar
  • Otimizado para análise de dados
  • Também usado por analistas de dados e analistas de negócios
  • Consultas conforme a necessidade, somente leitura
Introdução à Engenharia de Dados

Catálogo de dados para data lakes

  • Qual é a fonte desses dados?
  • Onde esses dados são usados?
  • Quem é o proprietário dos dados?
  • Com que frequência esses dados são atualizados?
  • Boas práticas de governança de dados
  • Garante a reprodutibilidade
  • Sem catálogo --> data swamp (pântano de dados)
  • Boas práticas para qualquer solução de armazenamento de dados
    • Confiabilidade
    • Autonomia
    • Escalabilidade
    • Velocidade
Introdução à Engenharia de Dados

Banco de dados x data warehouse

  • Banco de dados:
    • Termo geral
    • Definido livremente como dados organizados armazenados e acessados em um computador
  • Um data warehouse é um tipo de banco de dados
Introdução à Engenharia de Dados

Resumo

  • Data lakes
  • Data warehouses
  • Bancos de dados
  • Catálogo de dados
Introdução à Engenharia de Dados

Vamos praticar!

Introdução à Engenharia de Dados

Preparing Video For Download...