Datenintelligenzplattform – Rechnen

Einführung in Databricks

Kevin Barlow

Data Practitioner

Warum ist Rechenleistung für Unternehmen wichtig?

Einzelnes Zahnrad

Zahnradsystem

Einführung in Databricks

Apache Spark

  • Von den Mitbegründern von Databricks gemacht
  • Open-Source-Framework
  • Super effizientes verteiltes Rechnen
  • APIs für Python, SQL, Scala, R
  • Perfekt für alle Anwendungsfälle:
    • Datenverarbeitung für maschinelles Lernen und Business Intelligence

Schau dir ein paar der Apache Spark-Kurse auf DataCamp an!

Apache Spark Logo

Einführung in Databricks

Cluster-Typen

Klassisch

  • Rechenressourcen (virtuelle Maschinen) werden in der Compute Plane erstellt.
  • Databricks stellt dir die Konfiguration für deine Cloud bereit.
  • Vorteile: Rechenleistung und Sicherheit in deiner Umgebung, Nutzung bereits vorhandener Rechenpools usw.
  • Nachteile: Langsame Startzeit

Databricks-Steuerungsebene

Einführung in Databricks

Cluster-Typen

Ohne Server

  • Rechenressourcen (virtuelle Maschinen) werden in der Steuerungsebene erstellt.
  • Databricks gibt deinen Nutzern Zugriff
  • Vorteile _ Schnelle Startzeit, die neuesten und besten Funktionen, die schnellste Leistung – Databricks wird mit der Zeit immer besser.
  • Nachteile(?): Rechne nicht in deiner Umgebung

Serverlose Architektur

Einführung in Databricks

Einzelknoten vs. Mehrere Knoten

Einzelknoten

  • Cluster nur mit einem Treiberknoten
  • Kann immer noch Spark ausführen
  • Kann auch Frameworks mit einem einzigen Knoten ausführen (z. B. Pandas).
  • Super für kleinere Datensätze

Einzelknoten-Cluster

Mehrere Knoten

  • Cluster mit einem Treiberknoten und einem oder mehreren Arbeitsknoten
  • Spark kann die Arbeit auf mehrere Knoten verteilen.
  • Super für größere Datensätze

Cluster mit mehreren Knoten

Einführung in Databricks

Databricks-Laufzeitumgebung

  • Auf jedem Databricks-Cluster installiert
    • Optimierte Version von Apache Spark
    • Photon für schnellere SQL-Abfragen
    • Allgemeine Bibliotheken (z. B. pandas, dplyr, sci-kit learn)
    • Logik für die Verbindung mit Databricks-Diensten

Allgemeine Empfehlung: Benutze die aktuellste Long Term Support (LTS)-Version der Laufzeitumgebung.

Cluster mit Databricks Runtime

Einführung in Databricks

Lass uns üben!

Einführung in Databricks

Preparing Video For Download...