ETL e ELT em Python
Jake Roach
Data Engineer
Dados precisam ser bem transformados para gerar valor a quem usa depois

pandas oferece ferramentas poderosas para transformar dados tabulares
.loc[].to_datetime().loc[] permite transformar as duas dimensões de um DataFrame
# Manter só entradas não zero
cleaned = raw_stock_data.loc[raw_stock_data["open"] > 0, :]
# Remover colunas extras
cleaned = raw_stock_data.loc[:, ["timestamps", "open", "close"]]
# Combinar em um passo
cleaned = raw_stock_data.loc[raw_stock_data["open"] > 0, ["timestamps", "open", "close"]]
.iloc[] usa indexação inteira para filtrar DataFrames
cleaned = raw_stock_data.iloc[[0:50], [0, 1, 2]]
Muitas vezes é preciso converter tipos para usos posteriores
.to_datetime()# A coluna "timestamps" atualmente está assim: "20230101085731"
# Converter a coluna "timestamps" para datetime
cleaned["timestamps"] = pd.to_datetime(cleaned["timestamps"], format="%Y%m%d%H%M%S")
Timestamp('2023-01-01 08:57:31')
# A coluna "timestamps" atualmente está assim: 1681596000011
# Converter a coluna "timestamps" para datetime
cleaned["timestamps"] = pd.to_datetime(cleaned["timestamps"], unit="ms")
Timestamp('2023-04-15 22:00:00.011000')
Transformar dados traz riscos:
# Várias formas de inspecionar um DataFrame
cleaned = raw_stock_data.loc[raw_stock_data["open"] > 0, ["timestamps", "open", "close"]]
print(cleaned.head())
# Retornar menores e maiores registros
print(cleaned.nsmallest(10, ["timestamps"]))
print(cleaned.nlargest(10, ["timestamps"]))
ETL e ELT em Python