PySpark MLlib’e Genel Bakış

PySpark ile Big Data Temelleri

Upendra Devisetty

Science Analyst, CyVerse

PySpark MLlib nedir?

Makine öğrenmesi, veriden öğrenebilen algoritmaların
inşasını ve incelenmesini ele alan bir bilim dalıdır
  • MLlib, Apache Spark’ın makine öğrenmesi bileşenidir

  • MLlib’in sunduğu araçlar:

    • ML Algoritmaları: işbirlikçi filtreleme, sınıflandırma ve kümeleme

    • Özellik çıkarımı: öznitelik çıkarımı, dönüşüm, boyut indirgeme ve seçim

    • Boru hatları: ML Pipeline’larını kurma, değerlendirme ve ayarlama araçları

1 https://en.wikipedia.org/wiki/Machine_learning
PySpark ile Big Data Temelleri

Neden PySpark MLlib?

  • Scikit-learn, veri madenciliği ve makine öğrenmesi için popüler bir Python kütüphanesidir

  • Scikit-learn algoritmaları yalnızca tek makinadaki küçük veri kümelerinde çalışır

  • Spark’ın MLlib algoritmaları kümede paralel işlemeye uygundur

  • Scala, Java ve R gibi dilleri destekler

  • Makine öğrenmesi boru hatları kurmak için üst düzey bir API sunar

PySpark ile Big Data Temelleri

PySpark MLlib Algoritmaları

  • Sınıflandırma (İkili ve Çok Sınıflı) ve Regresyon: Doğrusal SVM, lojistik regresyon, karar ağaçları, rastgele ormanlar, gradyan artırmalı ağaçlar, naif Bayes, en küçük kareler, Lasso, ridge regresyon, izotonik regresyon

  • İşbirlikçi filtreleme: Alternating Least Squares (ALS)

  • Kümeleme: K-means, Gaussian mixture, İkiye Bölmeli K-means ve Akış K-Means

PySpark ile Big Data Temelleri

PySpark MLlib’de makine öğrenmesinin üç C’si

  • İşbirlikçi filtreleme (öneri motorları): Öneriler üretir

  • Sınıflandırma: Yeni bir gözlemin hangi kategoriye ait olduğunu belirler

  • Kümeleme: Benzer özelliklere göre veriyi gruplar

PySpark ile Big Data Temelleri

PySpark MLlib içe aktarmaları

  • İşbirlikçi filtreleme
from pyspark.mllib.recommendation import ALS
  • Sınıflandırma
from pyspark.mllib.classification import LogisticRegressionWithLBFGS
  • Kümeleme
from pyspark.mllib.clustering import KMeans
PySpark ile Big Data Temelleri

Hadi pratik yapalım

PySpark ile Big Data Temelleri

Preparing Video For Download...