PySpark ile Big Data Temelleri
Upendra Devisetty
Science Analyst, CyVerse
Makine öğrenmesi, veriden öğrenebilen algoritmaların
inşasını ve incelenmesini ele alan bir bilim dalıdır
MLlib, Apache Spark’ın makine öğrenmesi bileşenidir
MLlib’in sunduğu araçlar:
ML Algoritmaları: işbirlikçi filtreleme, sınıflandırma ve kümeleme
Özellik çıkarımı: öznitelik çıkarımı, dönüşüm, boyut indirgeme ve seçim
Boru hatları: ML Pipeline’larını kurma, değerlendirme ve ayarlama araçları
Scikit-learn, veri madenciliği ve makine öğrenmesi için popüler bir Python kütüphanesidir
Scikit-learn algoritmaları yalnızca tek makinadaki küçük veri kümelerinde çalışır
Spark’ın MLlib algoritmaları kümede paralel işlemeye uygundur
Scala, Java ve R gibi dilleri destekler
Makine öğrenmesi boru hatları kurmak için üst düzey bir API sunar
Sınıflandırma (İkili ve Çok Sınıflı) ve Regresyon: Doğrusal SVM, lojistik regresyon, karar ağaçları, rastgele ormanlar, gradyan artırmalı ağaçlar, naif Bayes, en küçük kareler, Lasso, ridge regresyon, izotonik regresyon
İşbirlikçi filtreleme: Alternating Least Squares (ALS)
Kümeleme: K-means, Gaussian mixture, İkiye Bölmeli K-means ve Akış K-Means
İşbirlikçi filtreleme (öneri motorları): Öneriler üretir
Sınıflandırma: Yeni bir gözlemin hangi kategoriye ait olduğunu belirler
Kümeleme: Benzer özelliklere göre veriyi gruplar
from pyspark.mllib.recommendation import ALS
from pyspark.mllib.classification import LogisticRegressionWithLBFGS
from pyspark.mllib.clustering import KMeans
PySpark ile Big Data Temelleri