Datapijplijnen op Kubernetes

Introductie tot Kubernetes

Frank Heilmann

Platform Architect and Freelance Instructor

Wat zijn datapijplijnen?

Reeks processen om data te verplaatsen, transformeren of analyseren
Typische stappen:
- ETL: Extract data uit diverse bronnen, Transform naar een bruikbaar schema, Load in een doelsysteem (bijv. data warehouse)
- ELT: Extract data uit diverse bronnen, Load in een doelsysteem (bijv. data lake), Transform naar een bruikbaar schema wanneer nodig

Datapijplijnen

Datapijplijnen op Kubernetes

De stappen van een datapijplijn mappen goed op Kubernetes-objecten:
- Extract, Transform, Load: Pods (Deployment of StatefulSet)
- Geëxtraheerde en getransformeerde data: Persistent Volumes
Kubernetes kan Deployments en opslag opschalen naar behoefte en zo de throughput verhogen

Datapijplijnen op Kubernetes

Open-sourcetools voor datapijplijnen

Er is veel open-sourcesoftware die direct op Kubernetes te deployen is
Enkele voorbeelden:
- Extract: Apache NiFi, Apache Kafka met Kafka Connect
- Transform: Apache Spark, Apache Kafka, PostgreSQL
- Load: Apache Spark, Apache Kafka met KSQL, PostgreSQL
- Opslag bovenop PV's: Minio, Ceph

Deze lijst is zeker niet volledig

Laten we oefenen!

Introductie tot Kubernetes

Preparing Video For Download...