Gudang data dan danau data

Memahami Rekayasa Data

Hadrien Lacroix

Content Developer

Gudang dengan pemandangan danau yang menakjubkan

Memahami Rekayasa Data

pipeline

Memahami Rekayasa Data

Data lake dan data warehouse

Data lake

  • Menyimpan semua data mentah
  • Dapat mencapai petabyte (1 juta GB)
  • Menyimpan semua struktur data
  • Hemat biaya
  • Sulit dianalisis
  • Perlu katalog data yang mutakhir
  • Dipakai data scientist
  • Big data, analitik real-time

Data warehouse

  • Data spesifik untuk kegunaan spesifik
  • Relatif kecil
  • Utamanya menyimpan data terstruktur
  • Lebih mahal untuk diperbarui
  • Dioptimalkan untuk analisis data
  • Juga dipakai data analyst dan business analyst
  • Kueri ad-hoc, hanya baca
Memahami Rekayasa Data

Katalog data untuk data lake

  • Apa sumber data ini?
  • Di mana data ini digunakan?
  • Siapa pemilik data?
  • Seberapa sering data ini diperbarui?
  • Praktik baik untuk tata kelola data
  • Menjamin reprodusibilitas
  • Tanpa katalog --> data swamp
  • Praktik baik untuk solusi penyimpanan data apa pun
    • Keandalan
    • Otonomi
    • Skalabilitas
    • Kecepatan
Memahami Rekayasa Data

Database vs. data warehouse

  • Database:
    • Istilah umum
    • Secara longgar: data terorganisasi yang disimpan dan diakses di komputer
  • Data warehouse adalah jenis database
Memahami Rekayasa Data

Ringkasan

  • Data lake
  • Data warehouse
  • Database
  • Katalog data
Memahami Rekayasa Data

Ayo berlatih!

Memahami Rekayasa Data

Preparing Video For Download...