Pola umum rekayasa data

Pengantar Databricks SQL

Kevin Barlow

Data Manager

Motivasi

Diagram Lakehouse - Transformasi

Pengantar Databricks SQL

Menangani data masuk

Append inkremental

  • Tambahkan semua data baru ke akhir tabel yang ada
    INSERT INTO students 
    TABLE visiting_students;
    

Diagram Append Inkremental

Change Data Capture (CDC)

  • Integrasikan data ke tabel yang ada
    MERGE INTO target USING source
    ON target.key = source.key
    WHEN MATCHED THEN UPDATE SET *;
    

Diagram CDC

Pengantar Databricks SQL

Optimasi data

OPTIMIZE

  • Mengompakkan subset data
  • Mengurangi "masalah file kecil"

Z-ORDER

  • Mirip pengindeksan pada sistem basis data
  • Menempatkan data terkait pada file yang sama
  • Dapat mengurangi waktu baca data
> OPTIMIZE table_name;

> OPTIMIZE table_name 
    WHERE date >= '2024-01-01';

> OPTIMIZE table_name
    WHERE date >= current_timestamp() 
        - INTERVAL 1 day
    ZORDER BY (eventType);
Pengantar Databricks SQL

Ayo berlatih!

Pengantar Databricks SQL

Preparing Video For Download...