Pipelines Data di Kubernetes
Pengantar Kubernetes
Frank Heilmann
Platform Architect and Freelance Instructor
Apa itu Pipelines Data?
Serangkaian proses untuk memindahkan, mentransformasi, atau menganalisis data
Langkah umum:
ETL
:
Extract
data dari berbagai sumber, lalu
Transform
ke skema bermakna, dan
Load
ke target sink (mis. gudang data)
ELT
:
Extract
data dari berbagai sumber, lalu
Load
ke target sink (mis. data lake), dan
Transform
ke skema bermakna saat diperlukan
Pipelines Data di Kubernetes
Langkah pipeline data selaras dengan objek Kubernetes:
Extract, Transform, Load: Pod (Deployment atau StatefulSet)
Data hasil Extract dan Transform: Persistent Volume
Kubernetes dapat menskalakan Deployment dan Storage sesuai kebutuhan untuk meningkatkan throughput
Alat Open Source untuk Pipelines Data
Banyak perangkat lunak open source siap dideploy di Kubernetes
Contoh:
Extract:
Apache NiFi
,
Apache Kafka
dengan
Kafka Connect
Transform:
Apache Spark
,
Apache Kafka
,
PostgreSQL
Load:
Apache Spark
,
Apache Kafka
dengan
KSQL
,
PostgreSQL
Storage di atas PV:
Minio
,
Ceph
Daftar ini tidak lengkap
Ayo berlatih!
Pengantar Kubernetes
Preparing Video For Download...