Overzicht van PySpark MLlib

Big Data Fundamentals met PySpark

Upendra Devisetty

Science Analyst, CyVerse

Wat is PySpark MLlib?

Machine learning is een discipline die de bouw en studie onderzoekt van algoritmen die van data kunnen leren
  • MLlib is een onderdeel van Apache Spark voor machine learning
  • MLlib biedt o.a.:

    • ML-algoritmen: collaborative filtering, classificatie en clustering

    • Featurization: feature-extractie, transformatie, dimensiereductie en selectie

    • Pipelines: tools om ML-pipelines te bouwen, evalueren en tunen

1 https://en.wikipedia.org/wiki/Machine_learning
Big Data Fundamentals met PySpark

Waarom PySpark MLlib?

  • Scikit-learn is een populaire Python-bibliotheek voor data mining en machine learning

  • Scikit-learn-algoritmen werken alleen voor kleine datasets op één machine

  • Spark’s MLlib-algoritmen zijn ontworpen voor parallelle verwerking op een cluster

  • Ondersteunt talen zoals Scala, Java en R

  • Biedt een high-level API om ML-pipelines te bouwen

Big Data Fundamentals met PySpark

PySpark MLlib-algoritmen

  • Classificatie (binair en multiclass) en regressie: lineaire SVM’s, logistische regressie, beslissingsbomen, random forests, gradient-boosted trees, naive Bayes, kleinste kwadraten, Lasso, ridge-regressie, isotonische regressie

  • Collaborative filtering: Alternating Least Squares (ALS)

  • Clustering: K-means, Gaussian mixture, Bisecting K-means en Streaming K-Means

Big Data Fundamentals met PySpark

De drie C’s van machine learning in PySpark MLlib

  • Collaborative filtering (aanbevelingssystemen): genereert aanbevelingen

  • Classificatie: bepaalt tot welke categorie een nieuwe observatie hoort

  • Clustering: groepeert data op vergelijkbare kenmerken

Big Data Fundamentals met PySpark

PySpark MLlib-imports

  • Collaborative filtering
from pyspark.mllib.recommendation import ALS
  • Classificatie
from pyspark.mllib.classification import LogisticRegressionWithLBFGS
  • Clustering
from pyspark.mllib.clustering import KMeans
Big Data Fundamentals met PySpark

Laten we oefenen!

Big Data Fundamentals met PySpark

Preparing Video For Download...