Tägliche Aufgaben planen

Einführung in das Data Engineering

Vincent Vankrunkelsven

Data Engineer @ DataCamp

Was du bisher gemacht hast

 

  • Mithilfe von extract_course_data() und extract_rating_data() extrahieren
  • Mit NA reinigen, mithilfe von transform_fill_programming_language()
  • Durchschnittliche Kursbewertungen pro Kurs: transform_avg_rating()
  • Passenden Paare aus Benutzer- und Kurs-IDs erhalten: transform_courses_to_recommend()
  • Empfehlungen berechnen: transform_recommendations()
Einführung in das Data Engineering

In Postgres laden

 

  • Berechnungen in den Datenprodukten nutzen
  • Täglich aktualisieren
  • Beispiel: E-Mails mit Empfehlungen verschicken
Einführung in das Data Engineering

Die Lade-Phase

 

recommendations.to_sql(
    "recommendations",
    db_engine,
    if_exists="append",
)
Einführung in das Data Engineering
def etl(db_engines):
    # Extract the data
    courses = extract_course_data(db_engines)
    rating = extract_rating_data(db_engines)
    # Clean up courses data
    courses = transform_fill_programming_language(courses)

# Get the average course ratings avg_course_rating = transform_avg_rating(rating)
# Get eligible user and course id pairs courses_to_recommend = transform_courses_to_recommend( rating, courses, )
# Calculate the recommendations recommendations = transform_recommendations( avg_course_rating, courses_to_recommend, )
# Load the recommendations into the database load_to_dwh(recommendations, db_engine))
Einführung in das Data Engineering

Erstellen der DAG

from airflow.models import DAG
from airflow.operators.python_operator import PythonOperator

dag = DAG(dag_id="recommendations",
          scheduled_interval="0 0 * * *")

task_recommendations = PythonOperator( task_id="recommendations_task", python_callable=etl, )
Einführung in das Data Engineering

Lass uns üben!

Einführung in das Data Engineering

Preparing Video For Download...