Ottimizzazione delle tabelle Delta Lake

Trasforma e analizza i dati con Microsoft Fabric

Luis Silva

Solution Architect - Data & AI

Cos'è Delta Lake?

  • Layer di storage open source per i lakehouse
  • Transazioni ACID, gestione metadata e versioning
  • Fabric usa il formato tabellare Delta Lake (Parquet) come standard
  • Interoperabilità tra le esperienze di Fabric

Diagramma dell'architettura Fabric che mostra dati acquisiti e archiviati come tabelle Delta Lake e poi interrogati con Power BI

Trasforma e analizza i dati con Microsoft Fabric

Manutenzione delle tabelle

  • Mantieni in ordine le tabelle Delta
  • Operazioni di manutenzione tabella:
    • Optimize
    • V-Order
    • Vacuum
Trasforma e analizza i dati con Microsoft Fabric

Optimize

  • Consolida molti piccoli file Parquet in un file grande
    • Dimensione ideale tra 128MB e 1GB
    • Migliora compressione e distribuzione, letture più efficienti
    • Consigliato ottimizzare dopo il caricamento di grandi tabelle

Diagramma che rappresenta una tabella lakehouse composta da una dozzina di piccoli file parquet ottimizzati in due grandi file parquet. I file originali restano inattivi

Trasforma e analizza i dati con Microsoft Fabric

Optimize

  • Consolida molti piccoli file Parquet in un file grande
    • Dimensione ideale tra 128MB e 1GB
    • Migliora compressione e distribuzione, letture più efficienti
    • Consigliato ottimizzare dopo il caricamento di grandi tabelle

Diagramma che rappresenta una tabella lakehouse composta da una dozzina di piccoli file parquet ottimizzati in due grandi file parquet. I file originali restano inattivi

Trasforma e analizza i dati con Microsoft Fabric

Eseguire il comando Optimize dal Lakehouse Explorer

Schermata del comando Maintenance nel Lakehouse Explorer, con l'opzione Run OPTIMIZE evidenziata

Trasforma e analizza i dati con Microsoft Fabric

Eseguire il comando Optimize in Spark SQL

%%sql
OPTIMIZE <lakehouse>.<table>;
Trasforma e analizza i dati con Microsoft Fabric

Eseguire il comando Optimize in PySpark

from delta.tables import DeltaTable

dt = DeltaTable.forPath( spark, "Tables/<table>" )
dt.optimize().executeCompaction()
Trasforma e analizza i dati con Microsoft Fabric

V-Order

  • Ottimizzazione speciale durante la scrittura di file Parquet
  • Abilitata per impostazione predefinita
Trasforma e analizza i dati con Microsoft Fabric

Applicare V-Order dal Lakehouse Explorer

Schermata del comando Maintenance nel Lakehouse Explorer, con l'opzione Apply V-ORDER evidenziata

Trasforma e analizza i dati con Microsoft Fabric

Controllare la scrittura V-Order nella sessione Apache Spark

  • Abilita V-Order per la sessione

    %%sql 
    SET spark.sql.parquet.vorder.enabled=TRUE
    

     

  • Disabilita V-Order per la sessione

    %%sql 
    SET spark.sql.parquet.vorder.enabled=FALSE
    
Trasforma e analizza i dati con Microsoft Fabric

Applicare V-Order durante l'ottimizzazione di una tabella

%%sql 
OPTIMIZE <table|fileOrFolderPath> VORDER;
Trasforma e analizza i dati con Microsoft Fabric

Vacuum

  • Rimuove i file obsoleti oltre la soglia di retention
  • Riduce i costi di storage nel cloud

Diagramma che rappresenta una tabella lakehouse composta da due grandi file parquet attivi e una dozzina di piccoli file parquet non più attivi ma ancora in storage. Dopo il vacuum, i file più vecchi vengono rimossi dallo storage

Trasforma e analizza i dati con Microsoft Fabric

Vacuum

  • Rimuove i file obsoleti oltre la soglia di retention
  • Riduce i costi di storage nel cloud

Diagramma che rappresenta una tabella lakehouse composta da due grandi file parquet attivi e una dozzina di piccoli file parquet non più attivi ma ancora in storage. Dopo il vacuum, i file più vecchi vengono rimossi dallo storage

Trasforma e analizza i dati con Microsoft Fabric

Eseguire Vacuum dal Lakehouse Explorer

Schermata del comando Maintenance nel Lakehouse Explorer, con l'opzione Run VACUUM evidenziata

Trasforma e analizza i dati con Microsoft Fabric

Passons à la pratique !

Trasforma e analizza i dati con Microsoft Fabric

Preparing Video For Download...