Introdução ao Apache Airflow

Introdução ao Apache Airflow em Python

Mike Metzger

Data Engineer

O que é um workflow?

  • Workflow - Conjunto de etapas para realizar um processo de engenharia de dados

 

  • Exemplo: baixar arquivos, copiar dados, filtrar informações e gravar em um banco

Diagrama de workflow com etapas sequenciais: baixar arquivos até gravar em um banco de dados

Introdução ao Apache Airflow em Python

O que é o Airflow?

Airflow - plataforma para orquestrar workflows:

  • Criar
  • Agendar
  • Monitorar

 

Logotipo do Apache Airflow

   

Ícones representando criar, agendar e monitorar workflows

Introdução ao Apache Airflow em Python

O que é o Airflow?

  • Pode executar programas de qualquer linguagem, mas os workflows são escritos em Python
  • Implementa workflows como DAGs
  • Acesso via interface web, código, linha de comando ou REST API
  • Usado para pipelines ETL, ML, automação etc.

 

Logotipo do Apache Airflow

Introdução ao Apache Airflow em Python

Introdução rápida a DAGs

DAG - modelo que representa tudo o que é preciso para executar um workflow.

  • Consiste nas tarefas e suas dependências
  • Criado com detalhes como nome, e-mail, responsável

Exemplo de DAG com tarefas conectadas por setas de dependência

Introdução ao Apache Airflow em Python

Componentes do Airflow

  • Scheduler - Dispara workflows agendados e envia tarefas
  • API Server - Fornece acesso seguro e consistente à plataforma Airflow
  • Dag processor - Lido pelo scheduler para decidir quais tarefas rodar e quando
  • Metadata database - Armazena o estado de Dags e tarefas

Diagrama dos componentes do Airflow: scheduler, API server, processador de Dag e banco de metadados

Introdução ao Apache Airflow em Python

Executando um workflow na UI do Airflow

Tela de DAGs do Airflow mostrando dois DAGs carregados com opções de interação

Introdução ao Apache Airflow em Python

Executando um workflow na UI do Airflow

Tela de DAGs do Airflow com o botão de disparo destacado

Introdução ao Apache Airflow em Python

Executando um workflow na UI do Airflow

Popup de disparo de DAG do Airflow com opções padrão e botão Trigger

Introdução ao Apache Airflow em Python

Executando um workflow na UI do Airflow

Tela de DAGs do Airflow mostrando a última execução bem-sucedida com marca verde

Introdução ao Apache Airflow em Python

Executando um workflow na UI do Airflow

Visão de tarefas da execução do DAG no Airflow listando detalhes como generate_random_number

Introdução ao Apache Airflow em Python

Vamos praticar!

Introdução ao Apache Airflow em Python

Preparing Video For Download...