Pipelines Data di Kubernetes

Pengantar Kubernetes

Frank Heilmann

Platform Architect and Freelance Instructor

Apa itu Pipelines Data?

  • Serangkaian proses untuk memindahkan, mentransformasi, atau menganalisis data
  • Langkah umum:
    • ETL: Extract data dari berbagai sumber, lalu Transform ke skema bermakna, dan Load ke target sink (mis. gudang data)
    • ELT: Extract data dari berbagai sumber, lalu Load ke target sink (mis. data lake), dan Transform ke skema bermakna saat diperlukan

Pipelines Data

Pengantar Kubernetes

Pipelines Data di Kubernetes

  • Langkah pipeline data selaras dengan objek Kubernetes:
    • Extract, Transform, Load: Pod (Deployment atau StatefulSet)
    • Data hasil Extract dan Transform: Persistent Volume
  • Kubernetes dapat menskalakan Deployment dan Storage sesuai kebutuhan untuk meningkatkan throughput

Pipelines Data di Kubernetes

Pengantar Kubernetes

Alat Open Source untuk Pipelines Data

  • Banyak perangkat lunak open source siap dideploy di Kubernetes
  • Contoh:
    • Extract: Apache NiFi, Apache Kafka dengan Kafka Connect
    • Transform: Apache Spark, Apache Kafka, PostgreSQL
    • Load: Apache Spark, Apache Kafka dengan KSQL, PostgreSQL
    • Storage di atas PV: Minio, Ceph
  • Daftar ini tidak lengkap
Pengantar Kubernetes

Ayo berlatih!

Pengantar Kubernetes

Preparing Video For Download...