Resumen de PySpark MLlib

Fundamentos de big data con PySpark

Upendra Devisetty

Science Analyst, CyVerse

¿Qué es PySpark MLlib?

El aprendizaje automático es una disciplina científica que estudia y construye
algoritmos que pueden aprender de los datos
  • MLlib es un componente de Apache Spark para aprendizaje automático

  • MLlib ofrece varias herramientas:

    • Algoritmos de ML: filtrado colaborativo, clasificación y clustering

    • Featurización: extracción de características, transformación, reducción y selección de dimensionalidad

    • Pipelines: herramientas para crear, evaluar y ajustar pipelines de ML

1 https://en.wikipedia.org/wiki/Machine_learning
Fundamentos de big data con PySpark

¿Por qué PySpark MLlib?

  • Scikit-learn es una librería popular de Python para minería de datos y aprendizaje automático

  • Los algoritmos de scikit-learn solo funcionan con datasets pequeños en una sola máquina

  • Los algoritmos de MLlib en Spark están diseñados para procesamiento paralelo en un clúster

  • Soporta lenguajes como Scala, Java y R

  • Proporciona una API de alto nivel para crear pipelines de ML

Fundamentos de big data con PySpark

Algoritmos de PySpark MLlib

  • Clasificación (binaria y multiclase) y regresión: SVM lineales, regresión logística, árboles de decisión, random forests, gradient-boosted trees, naive Bayes, mínimos cuadrados, Lasso, ridge, regresión isotónica

  • Filtrado colaborativo: Alternating Least Squares (ALS)

  • Clustering: K-means, mezcla gaussiana, K-means biseccionado y Streaming K-Means

Fundamentos de big data con PySpark

Las tres C del ML en PySpark MLlib

  • Filtrado colaborativo (motores de recomendación): genera recomendaciones

  • Clasificación: identifica a qué categoría pertenece una nueva observación

  • Clustering: agrupa datos por características similares

Fundamentos de big data con PySpark

Imports de PySpark MLlib

  • Filtrado colaborativo
from pyspark.mllib.recommendation import ALS
  • Clasificación
from pyspark.mllib.classification import LogisticRegressionWithLBFGS
  • Clustering
from pyspark.mllib.clustering import KMeans
Fundamentos de big data con PySpark

¡Vamos a practicar!

Fundamentos de big data con PySpark

Preparing Video For Download...