Yaygın veri mühendisliği kalıpları

Databricks SQL'e Giriş

Kevin Barlow

Data Manager

Güdüleme

Göl-ev Diyagramı - Dönüşüm

Databricks SQL'e Giriş

Gelen verileri işleme

Artımlı ekleme

  • Tüm yeni verileri mevcut tablonun sonuna ekleyin
    INSERT INTO students 
    TABLE visiting_students;
    

Artımlı Ekleme Diyagramı

Değişiklik Verisi Yakalama (CDC)

  • Verileri mevcut tabloya entegre eder
    MERGE INTO target USING source
    ON target.key = source.key
    WHEN MATCHED THEN UPDATE SET *;
    

CDC Diyagramı

Databricks SQL'e Giriş

Veri iyileştirmeleri

OPTIMIZE

  • Veri alt kümelerini birleştirir
  • "Küçük dosya" sorununu azaltır

Z-ORDER

  • Veritabanı dizinlemeye benzer
  • İlgili verileri aynı dosyalarda toplar
  • Okuma süresini azaltabilir
> OPTIMIZE table_name;

> OPTIMIZE table_name 
    WHERE date >= '2024-01-01';

> OPTIMIZE table_name
    WHERE date >= current_timestamp() 
        - INTERVAL 1 day
    ZORDER BY (eventType);
Databricks SQL'e Giriş

Hadi pratik yapalım!

Databricks SQL'e Giriş

Preparing Video For Download...