Transformasi data

Pengantar Databricks SQL

Kevin Barlow

Data Manager

Motivasi

Alur Lakehouse - Ingestion

Pengantar Databricks SQL

Transformasi di lakehouse

Diagram Lakeflow - Transformasi

Pengantar Databricks SQL

Membersihkan dan mentransformasi data

  • Membersihkan data dari lapisan Bronze (mentah) ke Silver (siap analitik)
  • Langkah penting untuk tabel hilir
  • Aktivitas umum
    • Menghapus nilai NULL
    • Menstandarkan nilai
    • Menyesuaikan tipe data
CREATE TABLE silver_layer AS (
SELECT DISTINCT c.id, 
    c.last_name || ', ' || c.first_name 
        AS name, 
    format(s.date,'YYYY-mm-dd') 
        AS sale_date, 
    round(s.price, 2) 
        AS sale_price
    s.item_name
FROM sales_data s
LEFT JOIN contacts c on c.id = s.id)
Pengantar Databricks SQL

Mengagregasi data

  • Menggabungkan dan menyederhanakan data dari Silver ke Gold (siap BI)
  • Ditujukan untuk kebutuhan BI spesifik
    • Kandidat bagus untuk view
  • Aktivitas umum
    • Menghapus kolom tidak perlu
    • Agregasi lintas dimensi
    • Menghitung metrik/KPI
CREATE VIEW q3_revenue AS (
SELECT sum(revenue) AS total_rev,
  count(*) AS total_count,
  total_rev / total_count AS avg_sale,
  category,
  item
FROM silver_layer
WHERE date BETWEEN '2024-07-01' 
  AND '2024-09-30'
GROUP BY category, item)
Pengantar Databricks SQL

Mengotomatiskan tugas

GIF Alur Kerja

Pengantar Databricks SQL

Ayo berlatih!

Pengantar Databricks SQL

Preparing Video For Download...