Vue d’ensemble de PySpark MLlib

Principes fondamentaux des mégadonnées avec PySpark

Upendra Devisetty

Science Analyst, CyVerse

Qu’est-ce que PySpark MLlib ?

L’apprentissage automatique est une discipline scientifique qui étudie la
construction et l’analyse d’algorithmes capables d’apprendre à partir des données

MLlib est un composant d’Apache Spark pour l’apprentissage automatique
MLlib fournit notamment :
- Algorithmes ML : filtrage collaboratif, classification et clustering
- Caractérisation : extraction, transformation, réduction de dimension et sélection de variables
- Pipelines : outils pour construire, évaluer et ajuster des pipelines ML

¹ https://en.wikipedia.org/wiki/Machine_learning

Pourquoi PySpark MLlib ?

Scikit-learn est une bibliothèque Python populaire pour l’exploration de données et le machine learning
Les algorithmes scikit-learn ne gèrent que de petits jeux de données sur une seule machine
Les algorithmes de MLlib sont conçus pour le traitement parallèle sur cluster
Prend en charge des langages comme Scala, Java et R
Fournit une API de haut niveau pour créer des pipelines de machine learning

Algorithmes PySpark MLlib

Classification (binaire et multiclasse) et régression : SVM linéaires, régression logistique, arbres de décision, forêts aléatoires, arbres boostés (GBT), naïf Bayes, moindres carrés, Lasso, ridge, régression isotone
Filtrage collaboratif : Alternating Least Squares (ALS)
Clustering : K-means, mélange gaussien, K-means bisectionnel et K-means en flux

Les trois « C » du machine learning avec PySpark MLlib

Filtrage collaboratif (systèmes de recommandation) : produire des recommandations
Classification : déterminer à quelle catégorie appartient une nouvelle observation
Clustering : regrouper les données par similarité

Imports PySpark MLlib

Filtrage collaboratif

from pyspark.mllib.recommendation import ALS

Classification

from pyspark.mllib.classification import LogisticRegressionWithLBFGS

Clustering

from pyspark.mllib.clustering import KMeans

Passons à la pratique !

Principes fondamentaux des mégadonnées avec PySpark

Preparing Video For Download...