Mengekstrak data dari sumber terstruktur

ETL dan ELT di Python

Jake Roach

Data Engineer

Sistem sumber

Dalam kursus ini:

  • File CSV
  • File Parquet
  • File JSON
  • Database SQL

Data juga bersumber dari:

  • API
  • Data lake
  • Data warehouse
  • Web scraping
  • ... dan banyak lagi!
ETL dan ELT di Python

Membaca file Parquet

File Parquet:

  • Format file kolom open source untuk penyimpanan dan pengambilan data yang efisien
  • Mirip bekerja dengan file CSV
import pandas as pd

# Read the parquet file into memory
raw_stock_data = pd.read_parquet("raw_stock_data.parquet", engine="fastparquet")
1 https://www.databricks.com/glossary/what-is-parquet
ETL dan ELT di Python

Terhubung ke database SQL

  • Data dapat diambil dari database SQL ke DataFrame pandas
  • Memerlukan connection URI untuk membuat engine dan terhubung ke database
import sqlalchemy
import pandas as pd

# Connection URI: schema_identifier://username:password@host:port/db
connection_uri = "postgresql+psycopg2://repl:password@localhost:5432/market"
db_engine = sqlalchemy.create_engine(connection_uri)
# Query the SQL database
raw_stock_data = pd.read_sql("SELECT * FROM raw_stock_data LIMIT 10", db_engine)
ETL dan ELT di Python

Modularitas

Memisahkan logika ke dalam fungsi

  • Meningkatkan keterbacaan dalam pipeline
  • Mengikuti prinsip "jangan mengulang diri"
  • Mempercepat pemecahan masalah
def extract_from_sql(connection_uri, query):
    # Create an engine, query data and return DataFrame
    db_engine = sqlalchemy.create_engine(connection_uri)
    return pd.read_sql(query, db_engine)

extract_from_sql("postgresql+psycopg2://.../market", "SELECT ... LIMIT 10;")
ETL dan ELT di Python

Ayo berlatih!

ETL dan ELT di Python

Preparing Video For Download...