Charger des données dans une base SQL avec pandas

ETL et ELT en Python

Jake Roach

Data Engineer

Charger des données dans une base SQL avec pandas

Pipeline ETL avec le composant de chargement surligné.

ETL et ELT en Python

Charger des données dans une base SQL avec pandas

Consommateurs de données accédant à une base SQL.

pandas propose .to_sql() pour persister des données en SQL

  • name
  • con
  • if_exists
  • index
  • index_label
ETL et ELT en Python

Persister des données dans Postgres avec pandas

# Create a connection object
connection_uri = "postgresql+psycopg2://repl:password@localhost:5432/market"
db_engine = sqlalchemy.create_engine(connection_uri)
# Use the .to_sql() method to persist data to SQL
clean_stock_data.to_sql(
    name="filtered_stock_data",
    con=db_engine, 
    if_exists="append",
    index=True,
    index_label="timestamps"
)
ETL et ELT en Python

Valider la persistance des données avec pandas

Il est essentiel de valider la persistance des données.

  • Vérifier que l’on peut les interroger
  • S’assurer que les comptes correspondent
  • Valider la présence de chaque ligne
# Pull data written to SQL table
to_validate = pd.read_sql("SELECT * FROM cleaned_stock_data", db_engine)
# Validate counts, record equality, etc
...
ETL et ELT en Python

Passons à la pratique !

ETL et ELT en Python

Preparing Video For Download...