Überblick: PySpark MLlib

Grundlagen von Big Data mit PySpark

Upendra Devisetty

Science Analyst, CyVerse

Was ist PySpark MLlib?

Maschinelles Lernen ist eine wissenschaftliche Disziplin, die den Aufbau und
die Untersuchung von Algorithmen erforscht, die aus Daten lernen können
  • MLlib ist eine Komponente von Apache Spark für Machine Learning

  • MLlib stellt u. a. bereit:

    • ML-Algorithmen: kollaboratives Filtern, Klassifikation, Clustering

    • Featurization: Merkmalsextraktion, -transformation, Dimensionsreduktion und -auswahl

    • Pipelines: Werkzeuge zum Erstellen, Bewerten und Tuning von ML-Pipelines

1 https://en.wikipedia.org/wiki/Machine_learning
Grundlagen von Big Data mit PySpark

Warum PySpark MLlib?

  • Scikit-learn ist eine beliebte Python-Bibliothek für Data Mining und Machine Learning

  • Scikit-learn-Algorithmen funktionieren nur für kleine Datensätze auf einer einzelnen Maschine

  • Die MLlib-Algorithmen von Spark sind für parallele Verarbeitung im Cluster ausgelegt

  • Unterstützt Sprachen wie Scala, Java und R

  • Bietet eine High-Level-API zum Aufbau von ML-Pipelines

Grundlagen von Big Data mit PySpark

PySpark-MLlib-Algorithmen

  • Klassifikation (binär und Multiclass) und Regression: Lineare SVMs, logistische Regression, Entscheidungsbäume, Random Forests, Gradient Boosted Trees, Naive Bayes, Lineare Ausgleichsrechnung, Lasso, Ridge-Regression, isotone Regression

  • Kollaboratives Filtern: Alternating Least Squares (ALS)

  • Clustering: K-Means, Gaussian Mixture, bisektierendes K-Means und Streaming K-Means

Grundlagen von Big Data mit PySpark

Die drei C's des Machine Learning in PySpark MLlib

  • Kollaboratives Filtern (Empfehlungssysteme): erzeugt Empfehlungen

  • Klassifikation: ordnet neue Beobachtungen Kategorien zu

  • Clustering: gruppiert Daten nach ähnlichen Merkmalen

Grundlagen von Big Data mit PySpark

PySpark-MLlib-Imports

  • Kollaboratives Filtern
from pyspark.mllib.recommendation import ALS
  • Klassifikation
from pyspark.mllib.classification import LogisticRegressionWithLBFGS
  • Clustering
from pyspark.mllib.clustering import KMeans
Grundlagen von Big Data mit PySpark

Lass uns üben!

Grundlagen von Big Data mit PySpark

Preparing Video For Download...