Sınıflandırma

PySpark ile Big Data Temelleri

Upendra Devisetty

Science Analyst, CyVerse

PySpark MLlib ile Sınıflandırma

Sınıflandırma, girdi verilerini farklı kategorilere ayıran gözetimli bir makine öğrenmesi yöntemidir

PySpark MLlib, Vectors ve LabeledPoint adlı özel veri tiplerini içerir
İki tür Vectors vardır
- Yoğun Vektör: tüm girdileri kayan noktalı sayı dizisinde tutar
- Seyrek Vektör: yalnızca sıfır olmayan değerleri ve indislerini tutar

denseVec = Vectors.dense([1.0, 2.0, 3.0])

DenseVector([1.0, 2.0, 3.0])

sparseVec = Vectors.sparse(4, {1: 1.0, 3: 5.5})

SparseVector(4, {1: 1.0, 3: 5.5})

LabeledPoint, girdi özellikleri ile tahmin etiketini bir arada tutan bir sarmalayıcıdır
Lojistik Regresyonun ikili sınıflandırmasında etiket 0 (negatif) veya 1 (pozitif) olur

positive = LabeledPoint(1.0, [1.0, 0.0, 3.0])
negative = LabeledPoint(0.0, [2.0, 1.0, 1.0])
print(positive)
print(negative)

LabeledPoint(1.0, [1.0,0.0,3.0])
LabeledPoint(0.0, [2.0,1.0,1.0])

HashingTF() algoritması, özellik değerlerini özellik vektöründeki indislere eşlemek için kullanılır

from pyspark.mllib.feature import HashingTF
sentence = "hello hello world"
words = sentence.split()
tf = HashingTF(10000) 
tf.transform(words)

SparseVector(10000, {3065: 1.0, 6861: 2.0})

PySpark MLlib ile Lojistik Regresyon, LogisticRegressionWithLBFGS sınıfı kullanılarak yapılır

data = [
        LabeledPoint(0.0, [0.0, 1.0]),
        LabeledPoint(1.0, [1.0, 0.0]),
]
RDD = sc.parallelize(data)

lrm = LogisticRegressionWithLBFGS.train(RDD)

lrm.predict([1.0, 0.0])
lrm.predict([0.0, 1.0])

1
0

PySpark ile Big Data Temelleri