Workflow-Planungs-Frameworks

Einführung in das Data Engineering

Vincent Vankrunkelsven

Data Engineer @ DataCamp

Ein Beispielworkflow

 

Beispiel für einen einfachen Workflow, der mit Spark Daten aus einer CSV-Datei extrahiert

Wie plant man?

  • Manuell
  • Planungstools von cron
  • Was ist mit Abhängigkeiten?
Einführung in das Data Engineering

DAGs

Gerichtete azyklische Graphen

  • Satz von Knoten
  • Gerichtete Kanten
  • Keine Zyklen

Beispiel-DAG

Einführung in das Data Engineering

Die Tools für die Arbeit

 

  • cron von Linux
  • Luigi von Spotify
  • Apache Airflow
Einführung in das Data Engineering

Logo von Apache Airflow

  • Entwickelt von Airbnb
  • DAGs
  • Python
Einführung in das Data Engineering

Airflow: ein Beispiel-DAG

 

Beispiel für Airflow DAG

Einführung in das Data Engineering

Airflow: ein Beispiel im Code

# Create the DAG object
dag = DAG(dag_id="example_dag", ..., schedule_interval="0 * * * *")

# Define operations start_cluster = StartClusterOperator(task_id="start_cluster", dag=dag) ingest_customer_data = SparkJobOperator(task_id="ingest_customer_data", dag=dag) ingest_product_data = SparkJobOperator(task_id="ingest_product_data", dag=dag) enrich_customer_data = PythonOperator(task_id="enrich_customer_data", ..., dag = dag)
# Set up dependency flow start_cluster.set_downstream(ingest_customer_data) ingest_customer_data.set_downstream(enrich_customer_data) ingest_product_data.set_downstream(enrich_customer_data)
Einführung in das Data Engineering

Lass uns üben!

Einführung in das Data Engineering

Preparing Video For Download...