Trasformare i dati

Introduzione a Databricks SQL

Kevin Barlow

Data Manager

Motivazione

Flusso Lakehouse - Ingestion

Introduzione a Databricks SQL

Trasformazione nel lakehouse

Diagramma Lakeflow - Trasformazione

Introduzione a Databricks SQL

Pulizia e trasformazione dei dati

  • Pulire i dati dal livello Bronze (grezzi) al livello Silver (pronti per l'analisi)
  • Passo chiave per le tabelle a valle
  • Attività comuni
    • Rimuovere valori NULL
    • Standardizzare i valori
    • Adeguare i tipi di dato
CREATE TABLE silver_layer AS (
SELECT DISTINCT c.id, 
    c.last_name || ', ' || c.first_name 
        AS name, 
    format(s.date,'YYYY-mm-dd') 
        AS sale_date, 
    round(s.price, 2) 
        AS sale_price
    s.item_name
FROM sales_data s
LEFT JOIN contacts c on c.id = s.id)
Introduzione a Databricks SQL

Aggregare i dati

  • Combinare e semplificare i dati dal livello Silver al livello Gold (pronto per la BI)
  • Pensato per un'esigenza specifica di business intelligence
    • Ottimo per le view
  • Attività comuni
    • Rimuovere colonne superflue
    • Aggregare tra dimensioni
    • Calcolare metriche / KPI
CREATE VIEW q3_revenue AS (
SELECT sum(revenue) AS total_rev,
  count(*) AS total_count,
  total_rev / total_count AS avg_sale,
  category,
  item
FROM silver_layer
WHERE date BETWEEN '2024-07-01' 
  AND '2024-09-30'
GROUP BY category, item)
Introduzione a Databricks SQL

Automatizzare le attività

GIF dei workflow

Introduzione a Databricks SQL

Ayo berlatih!

Introduzione a Databricks SQL

Preparing Video For Download...