Piattaforma di Data Intelligence - Compute

Introduzione a Databricks

Kevin Barlow

Data Practitioner

Perché le organizzazioni si interessano al compute?

Ingranaggio singolo

Sistema di ingranaggi

Introduzione a Databricks

Apache Spark

  • Creato dai co-fondatori di Databricks
  • Framework open source
  • Calcolo distribuito altamente efficiente
  • API per Python, SQL, Scala, R
  • Ottimo per tutti i casi d’uso:
    • dal data engineering al machine learning e alla business intelligence

Dai un’occhiata ai corsi su Apache Spark su DataCamp!

Logo Apache Spark

Introduzione a Databricks

Tipi di cluster

Classico

  • Le risorse di calcolo (macchine virtuali) sono create nel Compute Plane
  • Databricks fornisce configurazione al tuo cloud
  • Vantaggi: compute e sicurezza nel tuo ambiente, puoi sfruttare pool di calcolo esistenti, ecc.
  • Svantaggi: avvio lento

Control Plane di Databricks

Introduzione a Databricks

Tipi di cluster

Serverless

  • Le risorse di calcolo (macchine virtuali) sono create nel Control Plane
  • Databricks fornisce l’accesso agli utenti
  • Vantaggi: avvio rapido, ultime funzionalità, massime prestazioni, Databricks le migliora nel tempo
  • Svantaggi: compute non nel tuo ambiente

Architettura serverless

Introduzione a Databricks

Single node vs. Multi node

Single node

  • Cluster con solo un Driver Node
  • Può comunque eseguire Spark
  • Può eseguire anche framework single-node (es. pandas)
  • Ottimo per dataset piccoli

Cluster single node

Multi node

  • Cluster con un Driver Node e uno o più Worker Node
  • Spark distribuisce il lavoro su più nodi
  • Ottimo per dataset grandi

Cluster multi node

Introduzione a Databricks

Databricks Runtime

  • Installato su ogni cluster Databricks
    • Versione ottimizzata di Apache Spark
    • Photon per query SQL più veloci
    • Librerie comuni (es. pandas, dplyr, sci-kit learn)
    • Logica per connettersi ai servizi Databricks

Consiglio generale: usa la versione Long Term Support (LTS) più recente del Runtime

Cluster con Databricks Runtime

Introduzione a Databricks

Passiamo alla pratica!

Introduzione a Databricks

Preparing Video For Download...