Fundamental Big Data dengan PySpark
Upendra Devisetty
Science Analyst, CyVerse
Machine learning adalah disiplin ilmu yang menelaah pembangunan dan
kajian algoritma yang dapat belajar dari data
MLlib adalah komponen Apache Spark untuk machine learning
Berbagai alat yang disediakan MLlib mencakup:
Algoritme ML: collaborative filtering, klasifikasi, dan klasterisasi
Featurization: ekstraksi fitur, transformasi, reduksi dimensi, dan seleksi
Pipelines: alat untuk membangun, mengevaluasi, dan menyetel Pipeline ML
Scikit-learn adalah pustaka Python populer untuk penambangan data dan machine learning
Algoritme scikit-learn hanya cocok untuk dataset kecil pada satu mesin
Algoritme MLlib Spark dirancang untuk pemrosesan paralel di klaster
Mendukung bahasa seperti Scala, Java, dan R
Menyediakan API tingkat tinggi untuk membangun pipeline machine learning
Klasifikasi (biner dan multikelas) dan Regresi: Linear SVM, regresi logistik, decision tree, random forest, gradient-boosted trees, naive Bayes, linear least squares, Lasso, ridge regression, isotonic regression
Collaborative filtering: Alternating least squares (ALS)
Klasterisasi: K-means, Gaussian mixture, Bisecting K-means, dan Streaming K-Means
Collaborative filtering (mesin rekomendasi): Menghasilkan rekomendasi
Klasifikasi: Menentukan kategori sebuah observasi baru
Klasterisasi: Mengelompokkan data berdasarkan kemiripan karakteristik
from pyspark.mllib.recommendation import ALS
from pyspark.mllib.classification import LogisticRegressionWithLBFGS
from pyspark.mllib.clustering import KMeans
Fundamental Big Data dengan PySpark