Grundlagen von Big Data mit PySpark
Upendra Devisetty
Science Analyst, CyVerse
Maschinelles Lernen ist eine wissenschaftliche Disziplin, die den Aufbau und
die Untersuchung von Algorithmen erforscht, die aus Daten lernen können
MLlib ist eine Komponente von Apache Spark für Machine Learning
MLlib stellt u. a. bereit:
ML-Algorithmen: kollaboratives Filtern, Klassifikation, Clustering
Featurization: Merkmalsextraktion, -transformation, Dimensionsreduktion und -auswahl
Pipelines: Werkzeuge zum Erstellen, Bewerten und Tuning von ML-Pipelines
Scikit-learn ist eine beliebte Python-Bibliothek für Data Mining und Machine Learning
Scikit-learn-Algorithmen funktionieren nur für kleine Datensätze auf einer einzelnen Maschine
Die MLlib-Algorithmen von Spark sind für parallele Verarbeitung im Cluster ausgelegt
Unterstützt Sprachen wie Scala, Java und R
Bietet eine High-Level-API zum Aufbau von ML-Pipelines
Klassifikation (binär und Multiclass) und Regression: Lineare SVMs, logistische Regression, Entscheidungsbäume, Random Forests, Gradient Boosted Trees, Naive Bayes, Lineare Ausgleichsrechnung, Lasso, Ridge-Regression, isotone Regression
Kollaboratives Filtern: Alternating Least Squares (ALS)
Clustering: K-Means, Gaussian Mixture, bisektierendes K-Means und Streaming K-Means
Kollaboratives Filtern (Empfehlungssysteme): erzeugt Empfehlungen
Klassifikation: ordnet neue Beobachtungen Kategorien zu
Clustering: gruppiert Daten nach ähnlichen Merkmalen
from pyspark.mllib.recommendation import ALS
from pyspark.mllib.classification import LogisticRegressionWithLBFGS
from pyspark.mllib.clustering import KMeans
Grundlagen von Big Data mit PySpark