Overzicht van PySpark MLlib

Big Data Fundamentals met PySpark

Upendra Devisetty

Science Analyst, CyVerse

Wat is PySpark MLlib?

Machine learning is een discipline die de bouw en studie onderzoekt van algoritmen die van data kunnen leren

MLlib is een onderdeel van Apache Spark voor machine learning
MLlib biedt o.a.:
- ML-algoritmen: collaborative filtering, classificatie en clustering
- Featurization: feature-extractie, transformatie, dimensiereductie en selectie
- Pipelines: tools om ML-pipelines te bouwen, evalueren en tunen

¹ https://en.wikipedia.org/wiki/Machine_learning

Waarom PySpark MLlib?

Scikit-learn is een populaire Python-bibliotheek voor data mining en machine learning
Scikit-learn-algoritmen werken alleen voor kleine datasets op één machine
Spark’s MLlib-algoritmen zijn ontworpen voor parallelle verwerking op een cluster
Ondersteunt talen zoals Scala, Java en R
Biedt een high-level API om ML-pipelines te bouwen

PySpark MLlib-algoritmen

Classificatie (binair en multiclass) en regressie: lineaire SVM’s, logistische regressie, beslissingsbomen, random forests, gradient-boosted trees, naive Bayes, kleinste kwadraten, Lasso, ridge-regressie, isotonische regressie
Collaborative filtering: Alternating Least Squares (ALS)
Clustering: K-means, Gaussian mixture, Bisecting K-means en Streaming K-Means

De drie C’s van machine learning in PySpark MLlib

Collaborative filtering (aanbevelingssystemen): genereert aanbevelingen
Classificatie: bepaalt tot welke categorie een nieuwe observatie hoort
Clustering: groepeert data op vergelijkbare kenmerken

PySpark MLlib-imports

Collaborative filtering

from pyspark.mllib.recommendation import ALS

Classificatie

from pyspark.mllib.classification import LogisticRegressionWithLBFGS

Clustering

from pyspark.mllib.clustering import KMeans

Laten we oefenen!

Big Data Fundamentals met PySpark

Preparing Video For Download...