Sınıflandırma

PySpark ile Big Data Temelleri

Upendra Devisetty

Science Analyst, CyVerse

PySpark MLlib ile Sınıflandırma

  • Sınıflandırma, girdi verilerini farklı kategorilere ayıran gözetimli bir makine öğrenmesi yöntemidir

PySpark ile Big Data Temelleri

Lojistik Regresyona Giriş

  • Lojistik Regresyon, bazı değişkenlere göre ikili bir yanıtı tahmin eder

PySpark ile Big Data Temelleri

Vektörlerle Çalışma

  • PySpark MLlib, Vectors ve LabeledPoint adlı özel veri tiplerini içerir

  • İki tür Vectors vardır

    • Yoğun Vektör: tüm girdileri kayan noktalı sayı dizisinde tutar
    • Seyrek Vektör: yalnızca sıfır olmayan değerleri ve indislerini tutar
denseVec = Vectors.dense([1.0, 2.0, 3.0])
DenseVector([1.0, 2.0, 3.0])
sparseVec = Vectors.sparse(4, {1: 1.0, 3: 5.5})
SparseVector(4, {1: 1.0, 3: 5.5})
PySpark ile Big Data Temelleri

PySpark MLlib'de LabeledPoint()

  • LabeledPoint, girdi özellikleri ile tahmin etiketini bir arada tutan bir sarmalayıcıdır

  • Lojistik Regresyonun ikili sınıflandırmasında etiket 0 (negatif) veya 1 (pozitif) olur

positive = LabeledPoint(1.0, [1.0, 0.0, 3.0])
negative = LabeledPoint(0.0, [2.0, 1.0, 1.0])
print(positive)
print(negative)
LabeledPoint(1.0, [1.0,0.0,3.0])
LabeledPoint(0.0, [2.0,1.0,1.0])
PySpark ile Big Data Temelleri

PySpark MLlib'de HashingTF()

  • HashingTF() algoritması, özellik değerlerini özellik vektöründeki indislere eşlemek için kullanılır
from pyspark.mllib.feature import HashingTF
sentence = "hello hello world"
words = sentence.split()
tf = HashingTF(10000) 
tf.transform(words)
SparseVector(10000, {3065: 1.0, 6861: 2.0})
PySpark ile Big Data Temelleri

LogisticRegressionWithLBFGS ile Lojistik Regresyon

  • PySpark MLlib ile Lojistik Regresyon, LogisticRegressionWithLBFGS sınıfı kullanılarak yapılır
data = [
        LabeledPoint(0.0, [0.0, 1.0]),
        LabeledPoint(1.0, [1.0, 0.0]),
]
RDD = sc.parallelize(data)
lrm = LogisticRegressionWithLBFGS.train(RDD)
lrm.predict([1.0, 0.0])
lrm.predict([0.0, 1.0])
1
0
PySpark ile Big Data Temelleri

Son Slayt

PySpark ile Big Data Temelleri

Preparing Video For Download...