Einführung in Apache Airflow mit Python
Mike Metzger
Data Engineer
schedule_interval startbarrunningfailedsuccess

Beim Planen eines DAG sind wichtige Attribute:
start_date – Datum/Uhrzeit des ersten Laufsend_date – Optional: Ende für neue Instanzenmax_tries – Optional: Anzahl Versucheschedule_interval – Ausführungsfrequenzschedule_interval steht für:
start_date und end_datecron-Syntax oder vordefinierten Presets
* bedeutet jeden Intervall (z. B. jede Minute, jeden Tag)0 12 * * * # Täglich um 12 Uhr
* * 25 2 * # Jede Minute am 25. Februar
0,15,30,45 * * * * # Alle 15 Minuten
Presets:
cron-Äquivalent:
0 * * * *0 0 * * *0 0 * * 00 0 1 * *0 0 1 1 *Airflow hat zwei spezielle schedule_interval-Presets:
None – nie planen, für manuell ausgelöste DAGs@once – nur einmal planenBeim Planen eines DAG macht Airflow Folgendes:
start_date als frühesten Zeitpunktstart_date + schedule_interval'start_date': datetime(2020, 2, 25),
'schedule_interval': @daily
Das heißt, der früheste Lauf ist am 26. Februar 2020
Einführung in Apache Airflow mit Python