İş akışı zamanlama çerçeveleri

Data Engineering'e Giriş

Vincent Vankrunkelsven

Data Engineer @ DataCamp

Örnek bir işlem hattı

 

Spark kullanarak CSV'den çıkaran basit örnek işlem hattı

Nasıl zamanlanır?

  • Elle
  • cron zamanlayıcı aracı
  • Bağımlılıklar ne olacak?
Data Engineering'e Giriş

DAG'ler

Yönlendirilmiş Asiklik Grafik (DAG)

  • Düğümler kümesi
  • Yönlü kenarlar
  • Döngü yok

Örnek DAG

Data Engineering'e Giriş

İşe uygun araçlar

 

  • Linux cron
  • Spotify Luigi
  • Apache Airflow
Data Engineering'e Giriş

Apache Airflow logosu

  • Airbnb'de geliştirildi
  • DAG'ler
  • Python
Data Engineering'e Giriş

Airflow: örnek bir DAG

 

Örnek Airflow DAG'ı

Data Engineering'e Giriş

Airflow: kodla örnek

# Create the DAG object
dag = DAG(dag_id="example_dag", ..., schedule_interval="0 * * * *")

# Define operations start_cluster = StartClusterOperator(task_id="start_cluster", dag=dag) ingest_customer_data = SparkJobOperator(task_id="ingest_customer_data", dag=dag) ingest_product_data = SparkJobOperator(task_id="ingest_product_data", dag=dag) enrich_customer_data = PythonOperator(task_id="enrich_customer_data", ..., dag = dag)
# Set up dependency flow start_cluster.set_downstream(ingest_customer_data) ingest_customer_data.set_downstream(enrich_customer_data) ingest_product_data.set_downstream(enrich_customer_data)
Data Engineering'e Giriş

Hadi pratik yapalım!

Data Engineering'e Giriş

Preparing Video For Download...