Apa bedanya data warehouse dan data lake?

Konsep Data Warehousing

Aaren Stubberfield

Data Scientist

Database

  • Data terstruktur dalam baris dan kolom
  • Basis data transaksional menyimpan transaksi

Tiga tabel basis data

Konsep Data Warehousing

Data warehouse

  • Kumpulkan, integrasikan, dan sediakan data untuk analisis
  • Banyak sumber data masukan
  • Menyimpan data terstruktur
  • Sulit diubah
    • Dampak hulu dan hilir harus dipertimbangkan
  • Biasanya >100 GB

Tiga tabel basis data mengalir ke data warehouse

Konsep Data Warehousing

Mengapa data warehouse?

  • Seberapa cepat kueri berjalan pada data besar
  • Hindari memperlambat basis data transaksional

Orang frustrasi karena data lambat

Konsep Data Warehousing

Data mart

  • Basis data relasional untuk analisis
  • Data fokus pada satu area/topik
  • Sedikit sumber data masukan
  • Biasanya <100 GB

Data warehouse memasok data mart

Konsep Data Warehousing

Data lake

  • Penyimpanan data seluruh organisasi
    • Berisi data dari banyak departemen
    • Banyak sumber data masukan
    • Biasanya >100 GB
  • Menyimpan data terstruktur dan tidak terstruktur
    • Contoh: video, audio, dokumen

Berkas audio dan video serta basis data mengalir ke data lake

Konsep Data Warehousing

Data lake

  • Lebih mudah diubah
    • Dampak hulu–hilir lebih sedikit
  • Tujuan penyimpanan data bisa belum jelas
    • Lebih kurang teratur

berkas audio dan video serta basis data mengalir ke data lake

Konsep Data Warehousing

Ringkasan

Fitur Data Warehouse Data Mart Data Lake
Struktur data Terstruktur Terstruktur Terstruktur & Tidak terstruktur
Kompleksitas perubahan Kompleks Kompleks Kurang kompleks
Tujuan data Diketahui Diketahui Mungkin belum diketahui
Cakupan departemen Mencakup banyak Hanya satu Mencakup banyak
Sumber data Banyak sistem sumber Sedikit sumber Banyak sistem sumber
Ukuran tipikal >100 GB <100 GB >100 GB
Konsep Data Warehousing

Ayo berlatih!

Konsep Data Warehousing

Preparing Video For Download...