Persistenza e ambito delle tabelle

Gestione dei dati in Databricks

Smriti Mishra

Founder, NordData Insight

Cos’è la persistenza delle tabelle?

  • La persistenza della tabella controlla archiviazione e conservazione
  • Influisce su storage, accesso e manutenzione
  • Databricks supporta tabelle gestite e non gestite

Immagine a fumetti di persone che archiviano e consultano file in schedari

Gestione dei dati in Databricks

Tabelle gestite in Databricks

  • Completamente gestite da Databricks, inclusi posizione dati e ciclo di vita.
  • Elimina i dati quando elimini la tabella.
  • Adatte a gestione semplice e centralizzata.

Immagine che illustra un sistema centralizzato con puntini di colori diversi

Gestione dei dati in Databricks

Tabelle non gestite in Databricks

  • Approccio decentralizzato
  • Controlli posizione e ciclo di vita dei dati
  • Eliminare una tabella non gestita non elimina i dati
  • Utile per storage personalizzato o compliance

Immagine che illustra un sistema decentralizzato con puntini di colori diversi

Gestione dei dati in Databricks

Tabelle gestite o non gestite?

Aspect.png

Gestione dei dati in Databricks

La keyword LOCATION

  • Essenziale per definire l’archiviazione nelle tabelle non gestite.
  • La posizione influisce su costi, tempi di recupero e conservazione.

 

CREATE TABLE table_name (
    column_name data_type,
    ...
)
USING file_format
LOCATION 'path/to/data';
Gestione dei dati in Databricks

Punti chiave

  • Le tabelle gestite centralizzano storage e ciclo di vita in Databricks.
  • Le tabelle non gestite offrono flessibilità su storage e ciclo di vita.
  • Scegli in base a esigenze di archiviazione, controllo e gestione.

Immagine che mostra gestione di archiviazione e ciclo di vita dei dati

Gestione dei dati in Databricks

Passiamo alla pratica !

Gestione dei dati in Databricks

Preparing Video For Download...