Delta Lake tablo iyileştirme

Microsoft Fabric ile Verileri Dönüştür ve Analiz Et

Luis Silva

Solution Architect - Data & AI

Delta Lake nedir?

  • Lakehouse’lar için açık kaynak depolama katmanı
  • ACID işlemler, meta veri yönetimi ve sürümlendirme
  • Fabric, standart olarak Delta Lake tablo biçimini (Parquet) kullanır
  • Fabric deneyimleri arasında birlikte çalışabilirlik

Fabric mimarisi diyagramı: veriler Delta Lake tabloları olarak alınıp saklanır ve Power BI ile sorgulanır

Microsoft Fabric ile Verileri Dönüştür ve Analiz Et

Tablo bakımı

  • Delta tablolarını formda tutun
  • Tablo bakım işlemleri:
    • Optimize
    • V-Order
    • Vacuum
Microsoft Fabric ile Verileri Dönüştür ve Analiz Et

Optimize

  • Çok sayıda küçük Parquet dosyasını büyük bir dosyada birleştirir
    • İdeal dosya boyutu 128MB–1GB
    • Sıkıştırma ve dağıtımı iyileştirir; okuma verimini artırır
    • Büyük tabloları yükledikten sonra optimize önerilir

Bir lakehouse tablosunu gösteren diyagram: çok sayıda küçük parquet dosyası iki büyük parquet dosyasına optimize ediliyor. Orijinal dosyalar pasif kalır

Microsoft Fabric ile Verileri Dönüştür ve Analiz Et

Optimize

  • Çok sayıda küçük Parquet dosyasını büyük bir dosyada birleştirir
    • İdeal dosya boyutu 128MB–1GB
    • Sıkıştırma ve dağıtımı iyileştirir; okuma verimini artırır
    • Büyük tabloları yükledikten sonra optimize önerilir

Bir lakehouse tablosunu gösteren diyagram: çok sayıda küçük parquet dosyası iki büyük parquet dosyasına optimize ediliyor. Orijinal dosyalar pasif kalır

Microsoft Fabric ile Verileri Dönüştür ve Analiz Et

Lakehouse explorer’dan Optimize komutunu çalıştırma

Lakehouse explorer’daki Maintenance komutunun ekran görüntüsü; Run OPTIMIZE command seçeneği vurgulanmış

Microsoft Fabric ile Verileri Dönüştür ve Analiz Et

Spark SQL ile Optimize komutunu çalıştırma

%%sql
OPTIMIZE <lakehouse>.<table>;
Microsoft Fabric ile Verileri Dönüştür ve Analiz Et

PySpark ile Optimize komutunu çalıştırma

from delta.tables import DeltaTable

dt = DeltaTable.forPath( spark, "Tables/<table>" )
dt.optimize().executeCompaction()
Microsoft Fabric ile Verileri Dönüştür ve Analiz Et

V-Order

  • Parquet yazarken uygulanan özel iyileştirme
  • Varsayılan olarak etkindir
Microsoft Fabric ile Verileri Dönüştür ve Analiz Et

Lakehouse explorer’dan V-Order uygulama

Lakehouse explorer’daki Maintenance komutunun ekran görüntüsü; Apply V-ORDER seçeneği vurgulanmış

Microsoft Fabric ile Verileri Dönüştür ve Analiz Et

Apache Spark oturumunda V-Order yazımını kontrol etme

  • Oturum için V-Order’ı etkinleştirin

    %%sql 
    SET spark.sql.parquet.vorder.enabled=TRUE
    

     

  • Oturum için V-Order’ı devre dışı bırakın

    %%sql 
    SET spark.sql.parquet.vorder.enabled=FALSE
    
Microsoft Fabric ile Verileri Dönüştür ve Analiz Et

Tabloyu iyileştirirken V-Order uygulama

%%sql 
OPTIMIZE <table|fileOrFolderPath> VORDER;
Microsoft Fabric ile Verileri Dönüştür ve Analiz Et

Vacuum

  • Koruma eşiğinden daha eski ve artık gereksiz dosyaları kaldırır
  • Bulut depolama maliyetlerini düşürür

Bir lakehouse tablosunu gösteren diyagram: iki büyük aktif parquet dosyası ve depoda tutulan, artık aktif olmayan çok sayıda küçük parquet dosyası. Vacuum çalıştırıldıktan sonra eski dosyalar kaldırılır

Microsoft Fabric ile Verileri Dönüştür ve Analiz Et

Vacuum

  • Koruma eşiğinden daha eski ve artık gereksiz dosyaları kaldırır
  • Bulut depolama maliyetlerini düşürür

Bir lakehouse tablosunu gösteren diyagram: iki büyük aktif parquet dosyası ve depoda tutulan, artık aktif olmayan çok sayıda küçük parquet dosyası. Vacuum çalıştırıldıktan sonra eski dosyalar kaldırılır

Microsoft Fabric ile Verileri Dönüştür ve Analiz Et

Lakehouse explorer’dan Vacuum çalıştırma

Lakehouse explorer’daki Maintenance komutunun ekran görüntüsü; Run VACUUM seçeneği vurgulanmış

Microsoft Fabric ile Verileri Dönüştür ve Analiz Et

Hadi pratik yapalım!

Microsoft Fabric ile Verileri Dönüştür ve Analiz Et

Preparing Video For Download...