Transformar

Introdução à Engenharia de Dados

Vincent Vankrunkelsven

Data Engineer @ DataCamp

Tipos de transformações

customer_id email state created_at
1 [email protected] New York 2019-01-01 07:00:00

 

  • Seleção de atributo (ex.: 'email')
  • Tradução de valores de código (ex.: 'New York' -> 'NY')
  • Validação de dados (ex.: entrada de data em 'created_at')
  • Dividir colunas em várias colunas
  • Fazer join de várias fontes
Introdução à Engenharia de Dados

Exemplo: split (Pandas)

customer_id email username domain
1 [email protected] jane.doe theweb.com
customer_df # Pandas DataFrame com dados de clientes

# Dividir a coluna email em 2 colunas no símbolo '@'
split_email = customer_df.email.str.split("@", expand=True)

# Agora, split_email terá 2 colunas: a primeira # com tudo antes de @, e a segunda com # tudo depois de @ # Criar 2 novas colunas usando o DataFrame resultante. customer_df = customer_df.assign( username=split_email[0], domain=split_email[1], )
Introdução à Engenharia de Dados

Transformando no PySpark

Extrair dados no PySpark

import pyspark.sql

spark = pyspark.sql.SparkSession.builder.getOrCreate()

spark.read.jdbc("jdbc:postgresql://localhost:5432/pagila",
"customer",
properties={"user":"repl","password":"password"})
Introdução à Engenharia de Dados

Exemplo: join

Nova tabela de avaliações

customer_id film_id rating
1 2 1
2 1 5
2 2 3
... ... ...

Tabela de clientes

customer_id first_name last_name ...
1 Jane Doe ...
2 Joe Doe ...
... ... ... ...

 

customer_id aparece em ambas as tabelas

Introdução à Engenharia de Dados

Exemplo: join (PySpark)

customer_df # PySpark DataFrame com dados de clientes
ratings_df # PySpark DataFrame com dados de avaliações

# Agrupar avaliações ratings_per_customer = ratings_df.groupBy("customer_id").mean("rating")
# Fazer join por customer ID customer_df.join( ratings_per_customer, customer_df.customer_id==ratings_per_customer.customer_id )
Introdução à Engenharia de Dados

Vamos praticar!

Introdução à Engenharia de Dados

Preparing Video For Download...