Carregando dados em um banco SQL com pandas

ETL e ELT em Python

Jake Roach

Data Engineer

Carregar dados em um banco SQL com pandas

Pipeline ETL com o componente de carga em destaque.

ETL e ELT em Python

Carregando dados em um banco SQL com pandas

Consumidores de dados acessando um banco SQL.

pandas oferece .to_sql() para persistir dados em SQL

  • name
  • con
  • if_exists
  • index
  • index_label
ETL e ELT em Python

Persistindo dados no Postgres com pandas

# Create a connection object
connection_uri = "postgresql+psycopg2://repl:password@localhost:5432/market"
db_engine = sqlalchemy.create_engine(connection_uri)
# Use the .to_sql() method to persist data to SQL
clean_stock_data.to_sql(
    name="filtered_stock_data",
    con=db_engine, 
    if_exists="append",
    index=True,
    index_label="timestamps"
)
ETL e ELT em Python

Validando a persistência de dados com pandas

É importante validar se os dados foram persistidos como esperado.

  • Verifique se dá para consultar os dados
  • Confira se as contagens batem
  • Valide se cada linha está presente
# Pull data written to SQL table
to_validate = pd.read_sql("SELECT * FROM cleaned_stock_data", db_engine)
# Validate counts, record equality, etc
...
ETL e ELT em Python

Vamos praticar!

ETL e ELT em Python

Preparing Video For Download...