Vue d’ensemble de PySpark MLlib

Principes fondamentaux des mégadonnées avec PySpark

Upendra Devisetty

Science Analyst, CyVerse

Qu’est-ce que PySpark MLlib ?

L’apprentissage automatique est une discipline scientifique qui étudie la
construction et l’analyse d’algorithmes capables d’apprendre à partir des données
  • MLlib est un composant d’Apache Spark pour l’apprentissage automatique

  • MLlib fournit notamment :

    • Algorithmes ML : filtrage collaboratif, classification et clustering

    • Caractérisation : extraction, transformation, réduction de dimension et sélection de variables

    • Pipelines : outils pour construire, évaluer et ajuster des pipelines ML

1 https://en.wikipedia.org/wiki/Machine_learning
Principes fondamentaux des mégadonnées avec PySpark

Pourquoi PySpark MLlib ?

  • Scikit-learn est une bibliothèque Python populaire pour l’exploration de données et le machine learning

  • Les algorithmes scikit-learn ne gèrent que de petits jeux de données sur une seule machine

  • Les algorithmes de MLlib sont conçus pour le traitement parallèle sur cluster

  • Prend en charge des langages comme Scala, Java et R

  • Fournit une API de haut niveau pour créer des pipelines de machine learning

Principes fondamentaux des mégadonnées avec PySpark

Algorithmes PySpark MLlib

  • Classification (binaire et multiclasse) et régression : SVM linéaires, régression logistique, arbres de décision, forêts aléatoires, arbres boostés (GBT), naïf Bayes, moindres carrés, Lasso, ridge, régression isotone

  • Filtrage collaboratif : Alternating Least Squares (ALS)

  • Clustering : K-means, mélange gaussien, K-means bisectionnel et K-means en flux

Principes fondamentaux des mégadonnées avec PySpark

Les trois « C » du machine learning avec PySpark MLlib

  • Filtrage collaboratif (systèmes de recommandation) : produire des recommandations

  • Classification : déterminer à quelle catégorie appartient une nouvelle observation

  • Clustering : regrouper les données par similarité

Principes fondamentaux des mégadonnées avec PySpark

Imports PySpark MLlib

  • Filtrage collaboratif
from pyspark.mllib.recommendation import ALS
  • Classification
from pyspark.mllib.classification import LogisticRegressionWithLBFGS
  • Clustering
from pyspark.mllib.clustering import KMeans
Principes fondamentaux des mégadonnées avec PySpark

Passons à la pratique !

Principes fondamentaux des mégadonnées avec PySpark

Preparing Video For Download...