Créer un pipeline de production

Introduction à Apache Airflow en Python

Mike Metzger

Data Engineer

Exécuter des DAGs et des tâches

Pour exécuter une tâche précise en ligne de commande :

airflow tasks test <dag_id> <task_id> <date>

Pour exécuter un DAG complet :

airflow dags trigger -e <date> <dag_id>
Introduction à Apache Airflow en Python

Rappel des opérateurs

  • BashOperator — attend un bash_command
  • PythonOperator — attend un python_callable
  • BranchPythonOperator — requiert un python_callable et provide_context=True. Le callable doit accepter **kwargs.
  • FileSensor — requiert l’argument filepath et peut nécessiter les attributs mode ou poke_interval
Introduction à Apache Airflow en Python

Rappels sur les templates

  • De nombreux objets Airflow acceptent des modèles (templates)
  • Certains champs acceptent des chaînes modélisées, d’autres non
  • Pour vérifier, utilisez la documentation intégrée :
  1. Ouvrez l’interpréteur python3
  2. Importez les bibliothèques nécessaires (ex. from airflow.operators.bash import BashOperator)
  3. Au prompt, exécutez help(<objet Airflow>), ex. help(BashOperator)
  4. Recherchez une ligne mentionnant template_fields. Elle indique les arguments compatibles avec les modèles.
Introduction à Apache Airflow en Python

Exemple de documentation des templates

Aide python3 d’Airflow

Aide sur les templates Airflow

Introduction à Apache Airflow en Python

Passons à la pratique !

Introduction à Apache Airflow en Python

Preparing Video For Download...