Das Laden

Einführung in das Data Engineering

Vincent Vankrunkelsven

Data Engineer @ DataCamp

Datenbanken für Analyse oder für Anwendung

Analyse

Symbol zur Darstellung der Analyse

Aggregierte Abfragen
Online-Analyseverarbeitung (OLAP)

Anwendungen

Symbol zur Darstellung der Anwendungen

Viele Transaktionen
Online-Transaktionsverarbeitung (OLTP)

Spalten- und zeilenorientiert

Analyse

Spaltenorientiert

Beispiel für spaltenorientierte Speicherung

Abfragen zu Teilmengen von Spalten
Parallelisierung

Anwendungen

Zeilenorientiert

Beispiel für zeilenorientierte Speicherung

Pro Datensatz gespeichert
Pro Transaktion hinzugefügt
z.B. schnelles Hinzufügen von Kunden

MPP-Datenbanken

Massively Parallel Processing Databases

Darstellung der MPP-Datenbank

Amazon Redshift
Azure SQL Data Warehouse
Google BigQuery

Ein Beispiel: Redshift

Die Daten aus der Datei in das spaltenorientierte Speicherformat laden

# Pandas .to_parquet() method
df.to_parquet("./s3://path/to/bucket/customer.parquet")
# PySpark .write.parquet() method
df.write.parquet("./s3://path/to/bucket/customer.parquet")

COPY customer
FROM 's3://path/to/bucket/customer.parquet'
FORMAT as parquet
...

In PostgreSQL laden

pandas.to_sql()

# Transformation on data
recommendations = transform_find_recommendatins(ratings_df)

# Load into PostgreSQL database
recommendations.to_sql("recommendations",
                       db_engine,
                       schema="store",
                       if_exists="replace")

Lass uns üben!

Einführung in das Data Engineering