Klasifikasi

Fundamental Big Data dengan PySpark

Upendra Devisetty

Science Analyst, CyVerse

Klasifikasi dengan PySpark MLlib

Klasifikasi adalah pembelajaran terawasi untuk mengelompokkan data ke kategori berbeda

PySpark MLlib memiliki tipe data khusus: Vectors dan LabeledPoint
Dua jenis Vectors
- Dense Vector: menyimpan semua entri dalam array angka pecahan
- Sparse Vector: hanya menyimpan nilai nonnol dan indeksnya

denseVec = Vectors.dense([1.0, 2.0, 3.0])

DenseVector([1.0, 2.0, 3.0])

sparseVec = Vectors.sparse(4, {1: 1.0, 3: 5.5})

SparseVector(4, {1: 1.0, 3: 5.5})

LabeledPoint membungkus fitur masukan dan label prediksi
Untuk klasifikasi biner pada Regresi Logistik, label 0 (negatif) atau 1 (positif)

positive = LabeledPoint(1.0, [1.0, 0.0, 3.0])
negative = LabeledPoint(0.0, [2.0, 1.0, 1.0])
print(positive)
print(negative)

LabeledPoint(1.0, [1.0,0.0,3.0])
LabeledPoint(0.0, [2.0,1.0,1.0])

from pyspark.mllib.feature import HashingTF
sentence = "hello hello world"
words = sentence.split()
tf = HashingTF(10000) 
tf.transform(words)

SparseVector(10000, {3065: 1.0, 6861: 2.0})

Regresi Logistik dengan PySpark MLlib menggunakan kelas LogisticRegressionWithLBFGS

data = [
        LabeledPoint(0.0, [0.0, 1.0]),
        LabeledPoint(1.0, [1.0, 0.0]),
]
RDD = sc.parallelize(data)

lrm = LogisticRegressionWithLBFGS.train(RDD)

lrm.predict([1.0, 0.0])
lrm.predict([0.0, 1.0])

1
0

Fundamental Big Data dengan PySpark