Principes fondamentaux des mégadonnées avec PySpark
Upendra Devisetty
Science Analyst, CyVerse
L’apprentissage automatique est une discipline scientifique qui étudie la
construction et l’analyse d’algorithmes capables d’apprendre à partir des données
MLlib est un composant d’Apache Spark pour l’apprentissage automatique
MLlib fournit notamment :
Algorithmes ML : filtrage collaboratif, classification et clustering
Caractérisation : extraction, transformation, réduction de dimension et sélection de variables
Pipelines : outils pour construire, évaluer et ajuster des pipelines ML
Scikit-learn est une bibliothèque Python populaire pour l’exploration de données et le machine learning
Les algorithmes scikit-learn ne gèrent que de petits jeux de données sur une seule machine
Les algorithmes de MLlib sont conçus pour le traitement parallèle sur cluster
Prend en charge des langages comme Scala, Java et R
Fournit une API de haut niveau pour créer des pipelines de machine learning
Classification (binaire et multiclasse) et régression : SVM linéaires, régression logistique, arbres de décision, forêts aléatoires, arbres boostés (GBT), naïf Bayes, moindres carrés, Lasso, ridge, régression isotone
Filtrage collaboratif : Alternating Least Squares (ALS)
Clustering : K-means, mélange gaussien, K-means bisectionnel et K-means en flux
Filtrage collaboratif (systèmes de recommandation) : produire des recommandations
Classification : déterminer à quelle catégorie appartient une nouvelle observation
Clustering : regrouper les données par similarité
from pyspark.mllib.recommendation import ALS
from pyspark.mllib.classification import LogisticRegressionWithLBFGS
from pyspark.mllib.clustering import KMeans
Principes fondamentaux des mégadonnées avec PySpark