Big Data Fundamentals met PySpark
Upendra Devisetty
Science Analyst, CyVerse
Machine learning is een discipline die de bouw en studie onderzoekt van algoritmen die van data kunnen leren
MLlib biedt o.a.:
ML-algoritmen: collaborative filtering, classificatie en clustering
Featurization: feature-extractie, transformatie, dimensiereductie en selectie
Pipelines: tools om ML-pipelines te bouwen, evalueren en tunen
Scikit-learn is een populaire Python-bibliotheek voor data mining en machine learning
Scikit-learn-algoritmen werken alleen voor kleine datasets op één machine
Spark’s MLlib-algoritmen zijn ontworpen voor parallelle verwerking op een cluster
Ondersteunt talen zoals Scala, Java en R
Biedt een high-level API om ML-pipelines te bouwen
Classificatie (binair en multiclass) en regressie: lineaire SVM’s, logistische regressie, beslissingsbomen, random forests, gradient-boosted trees, naive Bayes, kleinste kwadraten, Lasso, ridge-regressie, isotonische regressie
Collaborative filtering: Alternating Least Squares (ALS)
Clustering: K-means, Gaussian mixture, Bisecting K-means en Streaming K-Means
Collaborative filtering (aanbevelingssystemen): genereert aanbevelingen
Classificatie: bepaalt tot welke categorie een nieuwe observatie hoort
Clustering: groepeert data op vergelijkbare kenmerken
from pyspark.mllib.recommendation import ALS
from pyspark.mllib.classification import LogisticRegressionWithLBFGS
from pyspark.mllib.clustering import KMeans
Big Data Fundamentals met PySpark