Ferramentas do engenheiro de dados

Introdução à Engenharia de Dados

Vincent Vankrunkelsven

Data Engineer @ DataCamp

Bancos de dados

 

  • Armazenam grandes volumes de dados
  • Dão suporte a aplicações

 

  • Outros bancos são usados para análises

 

Imagem de um banco de dados

Entidade simples de produto

Introdução à Engenharia de Dados

Processamento

  • Limpar dados
  • Agregar dados
  • Fazer joins

Imagem representando processamento paralelo

Introdução à Engenharia de Dados

Processamento: um exemplo

df = spark.read.parquet("users.parquet")

outliers = df.filter(df["age"] > 100)

print(outliers.count())

 

O engenheiro de dados entende as abstrações.

Introdução à Engenharia de Dados

Orquestração

 

  • Planejar jobs em intervalos específicos
  • Resolver dependências entre jobs

 

Diagrama de job de limpeza e join

JoinProductOrder precisa rodar depois de CleanProduct e CleanOrder

Introdução à Engenharia de Dados

Ferramentas existentes

Bancos de dados

Logo do MySQL

Logo do PostgreSQL

Processamento

Logo do Spark

Logo do Hive

Orquestração

Logo do Airflow

Logo do Oozie

Tux, o pinguim do Linux

Introdução à Engenharia de Dados

Um pipeline de dados

Imagem de um exemplo de pipeline de dados

Introdução à Engenharia de Dados

Vamos praticar!

Introdução à Engenharia de Dados

Preparing Video For Download...