Data warehouses e data lakes
Introdução à Engenharia de Dados
Hadrien Lacroix
Content Developer
Warehouses com vista deslumbrante para o lago
Data lakes e data warehouses
Data lake
Armazena todos os dados brutos
Pode ser de petabytes (1 milhão de GBs)
Armazena todas as estruturas de dados
Bom custo-benefício
Difícil de analisar
Requer um catálogo de dados atualizado
Usado por cientistas de dados
Big data, análise em tempo real
Data warehouse
Dados específicos para uso específico
Relativamente pequeno
Armazena principalmente dados estruturados
Mais caro para atualizar
Otimizado para análise de dados
Também usado por analistas de dados e analistas de negócios
Consultas conforme a necessidade, somente leitura
Catálogo de dados para data lakes
Qual é a fonte desses dados?
Onde esses dados são usados?
Quem é o proprietário dos dados?
Com que frequência esses dados são atualizados?
Boas práticas de governança de dados
Garante a reprodutibilidade
Sem catálogo --> data swamp (pântano de dados)
Boas práticas para qualquer solução de armazenamento de dados
Confiabilidade
Autonomia
Escalabilidade
Velocidade
Banco de dados x data warehouse
Banco de dados:
Termo geral
Definido livremente como
dados organizados armazenados e acessados em um computador
Um data warehouse é um tipo de banco de dados
Resumo
Data lakes
Data warehouses
Bancos de dados
Catálogo de dados
Vamos praticar!
Introdução à Engenharia de Dados
Preparing Video For Download...