Grundlagen von Big Data mit PySpark
Upendra Devisetty
Science Analyst, CyVerse
Volumen, Vielfalt und Geschwindigkeit
Volumen: Größe der Daten
Vielfalt: Unterschiedliche Quellen und Formate
Geschwindigkeit: Tempo der Daten
Cluster-Computing: Zusammenführung von Ressourcen mehrerer Maschinen
Paralleles Rechnen: Gleichzeitige Berechnung auf einem Rechner
Verteiltes Rechnen: Verbund vernetzter Knoten, die parallel laufen
Batch-Verarbeitung: Job in Teile zerlegen und auf einzelnen Maschinen ausführen
Echtzeitverarbeitung: Unmittelbare Verarbeitung von Daten
Hadoop/MapReduce: Skalierbares, fehlertolerantes Framework in Java
Open Source
Batch-Verarbeitung
Apache Spark: Allgemeines, sehr schnelles Cluster-Computing-System
Open Source
Batch- und Echtzeitverarbeitung
Hinweis: Apache Spark wird heute meist Hadoop/MapReduce vorgezogen
Verteiltes Cluster-Computing-Framework
Effiziente In-Memory-Berechnungen für große Datensätze
Blitzschnelles Datenverarbeitungs-Framework
Unterstützt Java, Scala, Python, R und SQL

Lokaler Modus: Einzelner Rechner, z. B. dein Laptop
Cluster-Modus: Satz vordefinierter Maschinen
Workflow: Lokal -> Cluster
Kein Codewechsel nötig
Grundlagen von Big Data mit PySpark