Gudang data dan danau data

Memahami Data Engineering

Hadrien Lacroix

Content Developer

Gudang dengan pemandangan danau yang menakjubkan

Memahami Data Engineering

pipeline

Memahami Data Engineering

Data lake dan data warehouse

Data lake

  • Menyimpan semua data mentah
  • Dapat mencapai petabyte (1 juta GB)
  • Menyimpan semua struktur data
  • Hemat biaya
  • Sulit dianalisis
  • Perlu katalog data yang mutakhir
  • Dipakai data scientist
  • Big data, analitik real-time

Data warehouse

  • Data spesifik untuk kegunaan spesifik
  • Relatif kecil
  • Utamanya menyimpan data terstruktur
  • Lebih mahal untuk diperbarui
  • Dioptimalkan untuk analisis data
  • Juga dipakai data analyst dan business analyst
  • Kueri ad-hoc, hanya baca
Memahami Data Engineering

Katalog data untuk data lake

  • Apa sumber data ini?
  • Di mana data ini digunakan?
  • Siapa pemilik data?
  • Seberapa sering data ini diperbarui?
  • Praktik baik untuk tata kelola data
  • Menjamin reprodusibilitas
  • Tanpa katalog --> data swamp
  • Praktik baik untuk solusi penyimpanan data apa pun
    • Keandalan
    • Otonomi
    • Skalabilitas
    • Kecepatan
Memahami Data Engineering

Database vs. data warehouse

  • Database:
    • Istilah umum
    • Secara longgar: data terorganisasi yang disimpan dan diakses di komputer
  • Data warehouse adalah jenis database
Memahami Data Engineering

Ringkasan

  • Data lake
  • Data warehouse
  • Database
  • Katalog data
Memahami Data Engineering

Ayo berlatih!

Memahami Data Engineering

Preparing Video For Download...