Data Intelligence Platform - Compute

Introductie tot Databricks

Kevin Barlow

Data Practitioner

Waarom geven organisaties om compute?

Enkel tandwiel

Systeem van tandwielen

Introductie tot Databricks

Apache Spark

  • Gemaakt door de Databricks-medeoprichters
  • Open-sourceframework
  • Zeer efficiënte gedistribueerde computing
  • API's voor Python, SQL, Scala, R
  • Geschikt voor alle use-cases:
    • van data engineering tot machine learning en business intelligence

Bekijk enkele Apache Spark-cursussen op DataCamp!

Apache Spark-logo

Introductie tot Databricks

Clustertypen

Classic

  • Compute-resources (virtuele machines) worden aangemaakt in de Compute Plane
  • Databricks levert configuratie aan jouw cloud
  • Voordelen: compute en security in je eigen omgeving, benut bestaande compute-pools, enz.
  • Nadelen: trage opstarttijd

Databricks Control Plane

Introductie tot Databricks

Clustertypen

Serverless

  • Compute-resources (virtuele machines) worden aangemaakt in de Control Plane
  • Databricks geeft jouw gebruikers toegang
  • Voordelen: snelle opstart, nieuwste features, hoogste performance, Databricks verbetert performance continu
  • Nadelen(?): compute staat niet in je eigen omgeving

Serverloze architectuur

Introductie tot Databricks

Single-node vs. Multi-node

Single-node

  • Cluster met alleen een Driver Node
  • Kan nog steeds Spark draaien
  • Kan ook single-node frameworks draaien (bijv. pandas)
  • Ideaal voor kleinere datasets

Single-nodecluster

Multi-node

  • Cluster met een Driver Node en een of meer Worker Nodes
  • Spark verdeelt werk over meerdere nodes
  • Ideaal voor grotere datasets

Multinodecluster

Introductie tot Databricks

Databricks Runtime

  • Geïnstalleerd op elke Databricks-cluster
    • Geoptimaliseerde versie van Apache Spark
    • Photon voor snellere SQL-queries
    • Veelgebruikte libraries (bijv. pandas, dplyr, scikit-learn)
    • Logica om met Databricks-services te verbinden

Algemeen advies: gebruik de nieuwste Long Term Support (LTS)-versie van de Runtime

Cluster met Databricks Runtime

Introductie tot Databricks

Laten we oefenen!

Introductie tot Databricks

Preparing Video For Download...