Acquisizione dei dati

Introduzione a Databricks SQL

Kevin Barlow

Data Manager

Motivazione

Diagramma Lakehouse

Introduzione a Databricks SQL

Creare il lakehouse

Diagramma Lakehouse - Ingestion

Introduzione a Databricks SQL

Opzioni basate su GUI

Lakeflow Connect

  • Connettori integrati per acquisire dati
    • Database
    • Applicazioni SaaS
  • Crea pipeline per mantenere i dati aggiornati

Lakeflow Connect

Caricamento dati

  • Carica file manualmente
    • CSV, Parquet, ecc.
  • Crea rapidamente nuove tabelle Delta
  • Ottimo per caricamenti ad hoc

Caricamento manuale dati

Introduzione a Databricks SQL

Portare i dati nel lakehouse

COPY INTO

  • Copia dati dallo storage oggetti cloud direttamente in tabelle Delta
  • Meglio per dataset più statici
  • Eseguibile nativamente in SQL Editor
COPY INTO my_table
FROM '/path/to/files'
FILEFORMAT = PARQUET
FORMAT_OPTIONS ('mergeSchema' = 'true')
COPY_OPTIONS ('mergeSchema' = 'true')

Auto Loader

  • Acquisisce automaticamente nuovi file dallo storage cloud
  • Meglio per dataset grandi e variabili
  • Usa Delta Live Tables in SQL
CREATE TABLE customers
AS SELECT * 
FROM cloud_files(
  "/path/to/files", 
  "csv")
Introduzione a Databricks SQL

Passiamo alla pratica !

Introduzione a Databricks SQL

Preparing Video For Download...