Gudang data dan danau data
Memahami Rekayasa Data
Hadrien Lacroix
Content Developer
Gudang dengan pemandangan danau yang menakjubkan
Data lake dan data warehouse
Data lake
- Menyimpan semua data mentah
- Dapat mencapai petabyte (1 juta GB)
- Menyimpan semua struktur data
- Hemat biaya
- Sulit dianalisis
- Perlu katalog data yang mutakhir
- Dipakai data scientist
- Big data, analitik real-time
Data warehouse
- Data spesifik untuk kegunaan spesifik
- Relatif kecil
- Utamanya menyimpan data terstruktur
- Lebih mahal untuk diperbarui
- Dioptimalkan untuk analisis data
- Juga dipakai data analyst dan business analyst
- Kueri ad-hoc, hanya baca
Katalog data untuk data lake
- Apa sumber data ini?
- Di mana data ini digunakan?
- Siapa pemilik data?
- Seberapa sering data ini diperbarui?
- Praktik baik untuk tata kelola data
- Menjamin reprodusibilitas
- Tanpa katalog --> data swamp
- Praktik baik untuk solusi penyimpanan data apa pun
- Keandalan
- Otonomi
- Skalabilitas
- Kecepatan
Database vs. data warehouse
- Database:
- Istilah umum
- Secara longgar: data terorganisasi yang disimpan dan diakses di komputer
- Data warehouse adalah jenis database
Ringkasan
- Data lake
- Data warehouse
- Database
- Katalog data
Ayo berlatih!
Memahami Rekayasa Data
Preparing Video For Download...