PySpark MLlib’e Genel Bakış

PySpark ile Big Data Temelleri

Upendra Devisetty

Science Analyst, CyVerse

PySpark MLlib nedir?

Makine öğrenmesi, veriden öğrenebilen algoritmaların
inşasını ve incelenmesini ele alan bir bilim dalıdır

MLlib, Apache Spark’ın makine öğrenmesi bileşenidir
MLlib’in sunduğu araçlar:
- ML Algoritmaları: işbirlikçi filtreleme, sınıflandırma ve kümeleme
- Özellik çıkarımı: öznitelik çıkarımı, dönüşüm, boyut indirgeme ve seçim
- Boru hatları: ML Pipeline’larını kurma, değerlendirme ve ayarlama araçları

¹ https://en.wikipedia.org/wiki/Machine_learning

Neden PySpark MLlib?

Scikit-learn, veri madenciliği ve makine öğrenmesi için popüler bir Python kütüphanesidir
Scikit-learn algoritmaları yalnızca tek makinadaki küçük veri kümelerinde çalışır
Spark’ın MLlib algoritmaları kümede paralel işlemeye uygundur
Scala, Java ve R gibi dilleri destekler
Makine öğrenmesi boru hatları kurmak için üst düzey bir API sunar

PySpark MLlib Algoritmaları

Sınıflandırma (İkili ve Çok Sınıflı) ve Regresyon: Doğrusal SVM, lojistik regresyon, karar ağaçları, rastgele ormanlar, gradyan artırmalı ağaçlar, naif Bayes, en küçük kareler, Lasso, ridge regresyon, izotonik regresyon
İşbirlikçi filtreleme: Alternating Least Squares (ALS)
Kümeleme: K-means, Gaussian mixture, İkiye Bölmeli K-means ve Akış K-Means

PySpark MLlib’de makine öğrenmesinin üç C’si

İşbirlikçi filtreleme (öneri motorları): Öneriler üretir
Sınıflandırma: Yeni bir gözlemin hangi kategoriye ait olduğunu belirler
Kümeleme: Benzer özelliklere göre veriyi gruplar

PySpark MLlib içe aktarmaları

İşbirlikçi filtreleme

from pyspark.mllib.recommendation import ALS

Sınıflandırma

from pyspark.mllib.classification import LogisticRegressionWithLBFGS

Kümeleme

from pyspark.mllib.clustering import KMeans

Hadi pratik yapalım

PySpark ile Big Data Temelleri

Preparing Video For Download...