Persistensi dan cakupan tabel

Manajemen Data di Databricks

Smriti Mishra

Founder, NordData Insight

Apa itu persistensi tabel?

  • Persistensi tabel mengendalikan penyimpanan dan retensi data
  • Mempengaruhi penyimpanan, akses, dan pemeliharaan
  • Databricks mendukung tabel managed dan unmanaged

Gambar kartun orang menyimpan dan meninjau berkas di lemari arsip

Manajemen Data di Databricks

Tabel managed di Databricks

  • Dikelola penuh oleh Databricks, termasuk lokasi data dan siklus hidup.
  • Otomatis menghapus data saat tabel dihapus.
  • Cocok untuk pengelolaan data terpusat yang sederhana.

Gambar yang menggambarkan cara kerja sistem terpusat dengan titik warna berbeda

Manajemen Data di Databricks

Tabel unmanaged di Databricks

  • Pendekatan terdesentralisasi
  • Kendalikan lokasi penyimpanan dan siklus hidup data
  • Menghapus tabel unmanaged tidak menghapus datanya
  • Bermanfaat untuk penyimpanan kustom atau kepatuhan

Gambar yang menggambarkan cara kerja sistem terdesentralisasi dengan titik warna berbeda

Manajemen Data di Databricks

Tabel managed atau unmanaged?

Aspect.png

Manajemen Data di Databricks

Kata kunci LOCATION

  • Penting untuk menetapkan penyimpanan data pada tabel unmanaged.
  • Lokasi penyimpanan memengaruhi biaya, waktu ambil, dan kebijakan retensi.

 

CREATE TABLE table_name (
    column_name data_type,
    ...
)
USING file_format
LOCATION 'path/to/data';
Manajemen Data di Databricks

Inti pembelajaran

  • Tabel managed memusatkan penyimpanan dan siklus hidup dalam Databricks.
  • Tabel unmanaged memberi fleksibilitas untuk penyimpanan dan siklus hidup data.
  • Pilih sesuai kebutuhan penyimpanan, kontrol, dan pengelolaan data.

Gambar yang menggambarkan pengelolaan penyimpanan dan siklus hidup data

Manajemen Data di Databricks

Ayo berlatih!

Manajemen Data di Databricks

Preparing Video For Download...