Gambaran MLlib PySpark

Fundamental Big Data dengan PySpark

Upendra Devisetty

Science Analyst, CyVerse

Apa itu MLlib PySpark?

Machine learning adalah disiplin ilmu yang menelaah pembangunan dan
kajian algoritma yang dapat belajar dari data

MLlib adalah komponen Apache Spark untuk machine learning
Berbagai alat yang disediakan MLlib mencakup:
- Algoritme ML: collaborative filtering, klasifikasi, dan klasterisasi
- Featurization: ekstraksi fitur, transformasi, reduksi dimensi, dan seleksi
- Pipelines: alat untuk membangun, mengevaluasi, dan menyetel Pipeline ML

¹ https://en.wikipedia.org/wiki/Machine_learning

Mengapa MLlib PySpark?

Scikit-learn adalah pustaka Python populer untuk penambangan data dan machine learning
Algoritme scikit-learn hanya cocok untuk dataset kecil pada satu mesin
Algoritme MLlib Spark dirancang untuk pemrosesan paralel di klaster
Mendukung bahasa seperti Scala, Java, dan R
Menyediakan API tingkat tinggi untuk membangun pipeline machine learning

Algoritme MLlib PySpark

Klasifikasi (biner dan multikelas) dan Regresi: Linear SVM, regresi logistik, decision tree, random forest, gradient-boosted trees, naive Bayes, linear least squares, Lasso, ridge regression, isotonic regression
Collaborative filtering: Alternating least squares (ALS)
Klasterisasi: K-means, Gaussian mixture, Bisecting K-means, dan Streaming K-Means

Tiga C dalam machine learning di MLlib PySpark

Collaborative filtering (mesin rekomendasi): Menghasilkan rekomendasi
Klasifikasi: Menentukan kategori sebuah observasi baru
Klasterisasi: Mengelompokkan data berdasarkan kemiripan karakteristik

Impor MLlib PySpark

Collaborative filtering

from pyspark.mllib.recommendation import ALS

Klasifikasi

from pyspark.mllib.classification import LogisticRegressionWithLBFGS

Klasterisasi

from pyspark.mllib.clustering import KMeans

Ayo berlatih!

Fundamental Big Data dengan PySpark

Preparing Video For Download...