Memuat

Pengantar Data Engineering

Vincent Vankrunkelsven

Data Engineer @ DataCamp

Database analitik atau aplikasi

Analitik

Ikon yang merepresentasikan analitik

  • Kueri agregat
  • Pemrosesan analitik daring (OLAP)

Aplikasi

Ikon yang merepresentasikan aplikasi

  • Banyak transaksi
  • Pemrosesan transaksi daring (OLTP)
Pengantar Data Engineering

Berorientasi kolom vs baris

Analitik

  • Berorientasi kolom

Contoh penyimpanan berorientasi kolom

  • Kueri subset kolom
  • Paralelisasi

Aplikasi

  • Berorientasi baris

Contoh penyimpanan berorientasi baris

  • Disimpan per rekaman
  • Ditambah per transaksi
  • Mis. menambah pelanggan itu cepat
Pengantar Data Engineering

Database MPP

Database Pemrosesan Paralel Masif

Diagram database MPP

 

  • Amazon Redshift
  • Azure SQL Data Warehouse
  • Google BigQuery
Pengantar Data Engineering

Contoh: Redshift

Muat dari file ke format penyimpanan kolumnar

# Metode Pandas .to_parquet()
df.to_parquet("./s3://path/to/bucket/customer.parquet")
# Metode PySpark .write.parquet()
df.write.parquet("./s3://path/to/bucket/customer.parquet")
COPY customer
FROM 's3://path/to/bucket/customer.parquet'
FORMAT as parquet
...
Pengantar Data Engineering

Muat ke PostgreSQL

pandas.to_sql()

# Transformasi data
recommendations = transform_find_recommendatins(ratings_df)

# Muat ke database PostgreSQL
recommendations.to_sql("recommendations",
                       db_engine,
                       schema="store",
                       if_exists="replace")
Pengantar Data Engineering

Ayo berlatih!

Pengantar Data Engineering

Preparing Video For Download...