Data binnenhalen

Introductie tot Databricks SQL

Kevin Barlow

Data Manager

Motivatie

Lakehouse-stroomschema

Introductie tot Databricks SQL

De lakehouse opzetten

Lakehouse-stroomschema - Inname

Introductie tot Databricks SQL

GUI-opties

Lakeflow Connect

  • Ingebouwde connectoren voor data-inname
    • Databases
    • SaaS-apps
  • Maakt pipelines om data up-to-date te houden

Lakeflow Connect

Data uploaden

  • Upload je bestanden handmatig
    • CSV, Parquet, etc.
  • Snel nieuwe Delta-tabellen maken
  • Handig voor ad-hocuploads

Handmatig data uploaden

Introductie tot Databricks SQL

Data naar de lakehouse brengen

COPY INTO

  • Kopieer data van cloud object storage direct naar Delta-tabellen
  • Beter voor meer statische datasets
  • Draait native in SQL Editor
COPY INTO my_table
FROM '/path/to/files'
FILEFORMAT = PARQUET
FORMAT_OPTIONS ('mergeSchema' = 'true')
COPY_OPTIONS ('mergeSchema' = 'true')

Auto Loader

  • Neemt automatisch nieuwe databestanden op uit cloudopslag
  • Beter voor grotere en veranderlijke datasets
  • Gebruikt Delta Live Tables in SQL
CREATE TABLE customers
AS SELECT * 
FROM cloud_files(
  "/path/to/files", 
  "csv")
Introductie tot Databricks SQL

Laten we oefenen!

Introductie tot Databricks SQL

Preparing Video For Download...