Veelvoorkomende data-engineeringpatronen

Introductie tot Databricks SQL

Kevin Barlow

Data Manager

Motivatie

Lakehouse-diagram - Transformatie

Introductie tot Databricks SQL

Inkomende data verwerken

Incrementeel toevoegen

  • Voeg alle nieuwe data toe aan het eind van de bestaande tabel
    INSERT INTO students 
    TABLE visiting_students;
    

Diagram incrementeel toevoegen

Change Data Capture (CDC)

  • Integreert data in een bestaande tabel
    MERGE INTO target USING source
    ON target.key = source.key
    WHEN MATCHED THEN UPDATE SET *;
    

CDC-diagram

Introductie tot Databricks SQL

Data-optimalisaties

OPTIMIZE

  • Compacteer een subset van data
  • Vermindert het "small file"-probleem

Z-ORDER

  • Vergelijkbaar met indexering in databases
  • Plaatst gerelateerde data in dezelfde files
  • Kan de leestijd verkorten
> OPTIMIZE table_name;

> OPTIMIZE table_name 
    WHERE date >= '2024-01-01';

> OPTIMIZE table_name
    WHERE date >= current_timestamp() 
        - INTERVAL 1 day
    ZORDER BY (eventType);
Introductie tot Databricks SQL

Laten we oefenen!

Introductie tot Databricks SQL

Preparing Video For Download...