Persistentie en scope van tabellen

Data Management in Databricks

Smriti Mishra

Founder, NordData Insight

Wat is tabelpersistentie?

  • Tabelpersistentie bepaalt opslag en retentie
  • Beïnvloedt opslag, toegang en onderhoud
  • Databricks ondersteunt managed en unmanaged tables

Cartoonafbeelding van mensen die dossiers opslaan en bekijken in kasten

Data Management in Databricks

Managed tables in Databricks

  • Volledig beheerd door Databricks, incl. locatie en lifecycle.
  • Verwijdert data automatisch als de tabel wordt verwijderd.
  • Geschikt voor eenvoudig, gecentraliseerd beheer.

Afbeelding die een gecentraliseerd systeem toont met gekleurde stippen

Data Management in Databricks

Unmanaged tables in Databricks

  • Gedecentraliseerde aanpak
  • Jij bepaalt opslaglocatie en lifecycle
  • Verwijderen van een unmanaged table verwijdert de data niet
  • Handig voor maatwerkopslag of compliance

Afbeelding die een gedecentraliseerd systeem toont met gekleurde stippen

Data Management in Databricks

Managed of unmanaged tables?

Aspect.png

Data Management in Databricks

Het LOCATION-keyword

  • Essentieel om opslag in unmanaged tabellen te bepalen.
  • Locatie beïnvloedt kosten, ophaaltijd en retentiebeleid.

 

CREATE TABLE table_name (
    column_name data_type,
    ...
)
USING file_format
LOCATION 'path/to/data';
Data Management in Databricks

Belangrijkste punten

  • Managed tables centraliseren opslag en lifecycle binnen Databricks.
  • Unmanaged tables bieden flexibiliteit voor opslag en lifecycle.
  • Kies op basis van opslag, controle en beheerbehoeften.

Afbeelding die opslag en lifecyclebeheer van data toont

Data Management in Databricks

Laten we oefenen!

Data Management in Databricks

Preparing Video For Download...