Datapijplijnen op Kubernetes

Introductie tot Kubernetes

Frank Heilmann

Platform Architect and Freelance Instructor

Wat zijn datapijplijnen?

  • Reeks processen om data te verplaatsen, transformeren of analyseren
  • Typische stappen:
    • ETL: Extract data uit diverse bronnen, Transform naar een bruikbaar schema, Load in een doelsysteem (bijv. data warehouse)
    • ELT: Extract data uit diverse bronnen, Load in een doelsysteem (bijv. data lake), Transform naar een bruikbaar schema wanneer nodig

Datapijplijnen

Introductie tot Kubernetes

Datapijplijnen op Kubernetes

  • De stappen van een datapijplijn mappen goed op Kubernetes-objecten:
    • Extract, Transform, Load: Pods (Deployment of StatefulSet)
    • Geëxtraheerde en getransformeerde data: Persistent Volumes
  • Kubernetes kan Deployments en opslag opschalen naar behoefte en zo de throughput verhogen

Datapijplijnen op Kubernetes

Introductie tot Kubernetes

Open-sourcetools voor datapijplijnen

  • Er is veel open-sourcesoftware die direct op Kubernetes te deployen is
  • Enkele voorbeelden:
    • Extract: Apache NiFi, Apache Kafka met Kafka Connect
    • Transform: Apache Spark, Apache Kafka, PostgreSQL
    • Load: Apache Spark, Apache Kafka met KSQL, PostgreSQL
    • Opslag bovenop PV's: Minio, Ceph
  • Deze lijst is zeker niet volledig
Introductie tot Kubernetes

Laten we oefenen!

Introductie tot Kubernetes

Preparing Video For Download...