Klasifikasi

Fundamental Big Data dengan PySpark

Upendra Devisetty

Science Analyst, CyVerse

Klasifikasi dengan PySpark MLlib

  • Klasifikasi adalah pembelajaran terawasi untuk mengelompokkan data ke kategori berbeda

Fundamental Big Data dengan PySpark

Pengantar Regresi Logistik

  • Regresi Logistik memprediksi respons biner dari beberapa variabel

Fundamental Big Data dengan PySpark

Bekerja dengan Vectors

  • PySpark MLlib memiliki tipe data khusus: Vectors dan LabeledPoint

  • Dua jenis Vectors

    • Dense Vector: menyimpan semua entri dalam array angka pecahan
    • Sparse Vector: hanya menyimpan nilai nonnol dan indeksnya
denseVec = Vectors.dense([1.0, 2.0, 3.0])
DenseVector([1.0, 2.0, 3.0])
sparseVec = Vectors.sparse(4, {1: 1.0, 3: 5.5})
SparseVector(4, {1: 1.0, 3: 5.5})
Fundamental Big Data dengan PySpark

LabeledPoint() di PySpark MLlib

  • LabeledPoint membungkus fitur masukan dan label prediksi

  • Untuk klasifikasi biner pada Regresi Logistik, label 0 (negatif) atau 1 (positif)

positive = LabeledPoint(1.0, [1.0, 0.0, 3.0])
negative = LabeledPoint(0.0, [2.0, 1.0, 1.0])
print(positive)
print(negative)
LabeledPoint(1.0, [1.0,0.0,3.0])
LabeledPoint(0.0, [2.0,1.0,1.0])
Fundamental Big Data dengan PySpark

HashingTF() di PySpark MLlib

  • Algoritme HashingTF() memetakan nilai fitur ke indeks dalam vektor fitur
from pyspark.mllib.feature import HashingTF
sentence = "hello hello world"
words = sentence.split()
tf = HashingTF(10000) 
tf.transform(words)
SparseVector(10000, {3065: 1.0, 6861: 2.0})
Fundamental Big Data dengan PySpark

Regresi Logistik dengan LogisticRegressionWithLBFGS

  • Regresi Logistik dengan PySpark MLlib menggunakan kelas LogisticRegressionWithLBFGS
data = [
        LabeledPoint(0.0, [0.0, 1.0]),
        LabeledPoint(1.0, [1.0, 0.0]),
]
RDD = sc.parallelize(data)
lrm = LogisticRegressionWithLBFGS.train(RDD)
lrm.predict([1.0, 0.0])
lrm.predict([0.0, 1.0])
1
0
Fundamental Big Data dengan PySpark

Slide Akhir

Fundamental Big Data dengan PySpark

Preparing Video For Download...