Gambaran MLlib PySpark

Fundamental Big Data dengan PySpark

Upendra Devisetty

Science Analyst, CyVerse

Apa itu MLlib PySpark?

Machine learning adalah disiplin ilmu yang menelaah pembangunan dan
kajian algoritma yang dapat belajar dari data
  • MLlib adalah komponen Apache Spark untuk machine learning

  • Berbagai alat yang disediakan MLlib mencakup:

    • Algoritme ML: collaborative filtering, klasifikasi, dan klasterisasi

    • Featurization: ekstraksi fitur, transformasi, reduksi dimensi, dan seleksi

    • Pipelines: alat untuk membangun, mengevaluasi, dan menyetel Pipeline ML

1 https://en.wikipedia.org/wiki/Machine_learning
Fundamental Big Data dengan PySpark

Mengapa MLlib PySpark?

  • Scikit-learn adalah pustaka Python populer untuk penambangan data dan machine learning

  • Algoritme scikit-learn hanya cocok untuk dataset kecil pada satu mesin

  • Algoritme MLlib Spark dirancang untuk pemrosesan paralel di klaster

  • Mendukung bahasa seperti Scala, Java, dan R

  • Menyediakan API tingkat tinggi untuk membangun pipeline machine learning

Fundamental Big Data dengan PySpark

Algoritme MLlib PySpark

  • Klasifikasi (biner dan multikelas) dan Regresi: Linear SVM, regresi logistik, decision tree, random forest, gradient-boosted trees, naive Bayes, linear least squares, Lasso, ridge regression, isotonic regression

  • Collaborative filtering: Alternating least squares (ALS)

  • Klasterisasi: K-means, Gaussian mixture, Bisecting K-means, dan Streaming K-Means

Fundamental Big Data dengan PySpark

Tiga C dalam machine learning di MLlib PySpark

  • Collaborative filtering (mesin rekomendasi): Menghasilkan rekomendasi

  • Klasifikasi: Menentukan kategori sebuah observasi baru

  • Klasterisasi: Mengelompokkan data berdasarkan kemiripan karakteristik

Fundamental Big Data dengan PySpark

Impor MLlib PySpark

  • Collaborative filtering
from pyspark.mllib.recommendation import ALS
  • Klasifikasi
from pyspark.mllib.classification import LogisticRegressionWithLBFGS
  • Klasterisasi
from pyspark.mllib.clustering import KMeans
Fundamental Big Data dengan PySpark

Ayo berlatih!

Fundamental Big Data dengan PySpark

Preparing Video For Download...