Yükleme

Data Engineering'e Giriş

Vincent Vankrunkelsven

Data Engineer @ DataCamp

Analitik veya uygulama veritabanları

Analitik

Analitiği temsil eden simge

  • Toplu sorgular
  • Çevrimiçi analitik işleme (OLAP)

Uygulamalar

Uygulamaları temsil eden simge

  • Çok sayıda işlem
  • Çevrimiçi işlem işleme (OLTP)
Data Engineering'e Giriş

Sütun ve satır odaklı

Analitik

  • Sütun odaklı

Sütun odaklı depolama örneği

  • Sütun alt kümeleri üzerinde sorgular
  • Paralelleştirme

Uygulamalar

  • Satır odaklı

Satır odaklı depolama örneği

  • Kayıt başına saklanır
  • İşlem başına eklenir
  • Örn. müşteri ekleme hızlıdır
Data Engineering'e Giriş

MPP Veritabanları

Yoğun Paralel İşlem (MPP) Veritabanları

MPP veritabanı diyagramı

 

  • Amazon Redshift
  • Azure SQL Data Warehouse
  • Google BigQuery
Data Engineering'e Giriş

Bir örnek: Redshift

Dosyadan sütunlu depolama biçimine yükleme

# Pandas .to_parquet() yöntemi
df.to_parquet("./s3://path/to/bucket/customer.parquet")
# PySpark .write.parquet() yöntemi
df.write.parquet("./s3://path/to/bucket/customer.parquet")
COPY customer
FROM 's3://path/to/bucket/customer.parquet'
FORMAT as parquet
...
Data Engineering'e Giriş

PostgreSQL'e yükleme

pandas.to_sql()

# Veride dönüşüm
recommendations = transform_find_recommendatins(ratings_df)

# PostgreSQL veritabanına yükleme
recommendations.to_sql("recommendations",
                       db_engine,
                       schema="store",
                       if_exists="replace")
Data Engineering'e Giriş

Hadi pratik yapalım!

Data Engineering'e Giriş

Preparing Video For Download...