Gudang data dan danau data
Memahami Data Engineering
Hadrien Lacroix
Content Developer
Gudang dengan pemandangan danau yang menakjubkan
Data lake dan data warehouse
Data lake
Menyimpan semua data mentah
Dapat mencapai petabyte (1 juta GB)
Menyimpan semua struktur data
Hemat biaya
Sulit dianalisis
Perlu katalog data yang mutakhir
Dipakai data scientist
Big data, analitik real-time
Data warehouse
Data spesifik untuk kegunaan spesifik
Relatif kecil
Utamanya menyimpan data terstruktur
Lebih mahal untuk diperbarui
Dioptimalkan untuk analisis data
Juga dipakai data analyst dan business analyst
Kueri ad-hoc, hanya baca
Katalog data untuk data lake
Apa sumber data ini?
Di mana data ini digunakan?
Siapa pemilik data?
Seberapa sering data ini diperbarui?
Praktik baik untuk tata kelola data
Menjamin reprodusibilitas
Tanpa katalog --> data swamp
Praktik baik untuk solusi penyimpanan data apa pun
Keandalan
Otonomi
Skalabilitas
Kecepatan
Database vs. data warehouse
Database:
Istilah umum
Secara longgar:
data terorganisasi yang disimpan dan diakses di komputer
Data warehouse adalah jenis database
Ringkasan
Data lake
Data warehouse
Database
Katalog data
Ayo berlatih!
Memahami Data Engineering
Preparing Video For Download...