Überblick: PySpark MLlib

Grundlagen von Big Data mit PySpark

Upendra Devisetty

Science Analyst, CyVerse

Was ist PySpark MLlib?

Maschinelles Lernen ist eine wissenschaftliche Disziplin, die den Aufbau und
die Untersuchung von Algorithmen erforscht, die aus Daten lernen können

MLlib ist eine Komponente von Apache Spark für Machine Learning
MLlib stellt u. a. bereit:
- ML-Algorithmen: kollaboratives Filtern, Klassifikation, Clustering
- Featurization: Merkmalsextraktion, -transformation, Dimensionsreduktion und -auswahl
- Pipelines: Werkzeuge zum Erstellen, Bewerten und Tuning von ML-Pipelines

¹ https://en.wikipedia.org/wiki/Machine_learning

Warum PySpark MLlib?

Scikit-learn ist eine beliebte Python-Bibliothek für Data Mining und Machine Learning
Scikit-learn-Algorithmen funktionieren nur für kleine Datensätze auf einer einzelnen Maschine
Die MLlib-Algorithmen von Spark sind für parallele Verarbeitung im Cluster ausgelegt
Unterstützt Sprachen wie Scala, Java und R
Bietet eine High-Level-API zum Aufbau von ML-Pipelines

PySpark-MLlib-Algorithmen

Klassifikation (binär und Multiclass) und Regression: Lineare SVMs, logistische Regression, Entscheidungsbäume, Random Forests, Gradient Boosted Trees, Naive Bayes, Lineare Ausgleichsrechnung, Lasso, Ridge-Regression, isotone Regression
Kollaboratives Filtern: Alternating Least Squares (ALS)
Clustering: K-Means, Gaussian Mixture, bisektierendes K-Means und Streaming K-Means

Die drei C's des Machine Learning in PySpark MLlib

Kollaboratives Filtern (Empfehlungssysteme): erzeugt Empfehlungen
Klassifikation: ordnet neue Beobachtungen Kategorien zu
Clustering: gruppiert Daten nach ähnlichen Merkmalen

PySpark-MLlib-Imports

Kollaboratives Filtern

from pyspark.mllib.recommendation import ALS

Klassifikation

from pyspark.mllib.classification import LogisticRegressionWithLBFGS

Clustering

from pyspark.mllib.clustering import KMeans

Lass uns üben!

Grundlagen von Big Data mit PySpark

Preparing Video For Download...