Data Intelligence Platform – Compute

Einführung in Databricks

Kevin Barlow

Data Practitioner

Warum ist Compute für Unternehmen wichtig?

Einzelnes Zahnrad

Zahnradsystem

Einführung in Databricks

Apache Spark

  • Von den Mitbegründern von Databricks
  • Open-Source-Framework
  • Hocheffizientes verteiltes Rechnen
  • APIs für Python, SQL, Scala, R
  • Perfekt für alle Anwendungsfälle:
    • Datenverarbeitung für maschinelles Lernen und Business Intelligence

Schau dir die Apache-Spark-Kurse auf DataCamp an!

Apache-Spark-Logo

Einführung in Databricks

Cluster-Typen

Klassisch

  • Rechenressourcen (virtuelle Maschinen) werden in Compute Plane erstellt
  • Databricks stellt Konfiguration für deine Cloud bereit
  • Vorteile: Rechenleistung und Sicherheit in deiner Umgebung, Nutzung bereits vorhandener Rechenpools usw.
  • Nachteile: Langsame Startzeit

Databricks-Control Plane

Einführung in Databricks

Cluster-Typen

Ohne Server

  • Rechenressourcen (virtuelle Maschinen) werden in Control Plane erstellt
  • Databricks bietet deinem Team Zugriff
  • Vorteile: Schnelle Startzeit, die neuesten und besten Funktionen, die schnellste Leistung – Databricks verbessert sich konstant
  • Nachteile(?): Rechenkapazität nicht in deiner Umgebung

Serverlose Architektur

Einführung in Databricks

Einzelknoten und mehrere Knoten im Vergleich

Single-Node

  • Cluster nur mit einem Driver-Node
  • Kann dennoch Spark ausführen
  • Kann auch Frameworks mit einem einzigen Knoten ausführen (z. B. Pandas)
  • Ideal für kleinere Datensätze

Single-Node-Cluster

Multi-Node

  • Cluster mit einem Driver-Node und einem oder mehreren Worker-Nodes
  • Spark kann Arbeit auf mehrere Knoten verteilen
  • Ideal für größere Datensätze

Multi-Node-Cluster

Einführung in Databricks

Databricks-Runtime

  • Auf jedem Databricks-Cluster installiert
    • Optimierte Version von Apache Spark
    • Photon für schnellere SQL-Abfragen
    • Gängige Bibliotheken (z. B. pandas, dplyr, sci-kit learn)
    • Logik für die Verbindung mit Databricks-Diensten

Allgemeine Empfehlung: Verwende die aktuellste Long Term Support (LTS)-Version der Runtime

Cluster mit Databricks Runtime

Einführung in Databricks

Lass uns üben!

Einführung in Databricks

Preparing Video For Download...