Das Laden

Einführung in das Data Engineering

Vincent Vankrunkelsven

Data Engineer @ DataCamp

Datenbanken für Analyse oder für Anwendung

Analyse

Symbol zur Darstellung der Analyse

  • Aggregierte Abfragen
  • Online-Analyseverarbeitung (OLAP)

Anwendungen

Symbol zur Darstellung der Anwendungen

  • Viele Transaktionen
  • Online-Transaktionsverarbeitung (OLTP)
Einführung in das Data Engineering

Spalten- und zeilenorientiert

Analyse

  • Spaltenorientiert

Beispiel für spaltenorientierte Speicherung

  • Abfragen zu Teilmengen von Spalten
  • Parallelisierung

Anwendungen

  • Zeilenorientiert

Beispiel für zeilenorientierte Speicherung

  • Pro Datensatz gespeichert
  • Pro Transaktion hinzugefügt
  • z.B. schnelles Hinzufügen von Kunden
Einführung in das Data Engineering

MPP-Datenbanken

Massively Parallel Processing Databases

Darstellung der MPP-Datenbank

 

  • Amazon Redshift
  • Azure SQL Data Warehouse
  • Google BigQuery
Einführung in das Data Engineering

Ein Beispiel: Redshift

Die Daten aus der Datei in das spaltenorientierte Speicherformat laden

# Pandas .to_parquet() method
df.to_parquet("./s3://path/to/bucket/customer.parquet")
# PySpark .write.parquet() method
df.write.parquet("./s3://path/to/bucket/customer.parquet")
COPY customer
FROM 's3://path/to/bucket/customer.parquet'
FORMAT as parquet
...
Einführung in das Data Engineering

In PostgreSQL laden

pandas.to_sql()

# Transformation on data
recommendations = transform_find_recommendatins(ratings_df)

# Load into PostgreSQL database
recommendations.to_sql("recommendations",
                       db_engine,
                       schema="store",
                       if_exists="replace")
Einführung in das Data Engineering

Lass uns üben!

Einführung in das Data Engineering

Preparing Video For Download...