Klasifikasi Teks

Pengantar Spark SQL dalam Python

Mark Plutowski

Data Scientist

Prediksi endword

Pengantar Spark SQL dalam Python

Panah urutan

Pengantar Spark SQL dalam Python

Endword

Pengantar Spark SQL dalam Python

Kurung endword

Pengantar Spark SQL dalam Python

Acak 1

Pengantar Spark SQL dalam Python

Acak 2

Pengantar Spark SQL dalam Python

Lagu

Pengantar Spark SQL dalam Python

Video

Pengantar Spark SQL dalam Python

Memilih data

df_true = df.where("endword in ('she', 'he', 'hers', 'his', 'her', 'him')")\
            .withColumn('label', lit(1))

df_false = df.where("endword not in ('she', 'he', 'hers', 'his', 'her', 'him')")\
           .withColumn('label', lit(0))
Pengantar Spark SQL dalam Python

Menggabungkan data positif dan negatif

df_examples = df_true.union(df_false)
Pengantar Spark SQL dalam Python

Membagi data menjadi train dan evaluasi

df_train, df_eval = df_examples.randomSplit((0.60, 0.40), 42)
Pengantar Spark SQL dalam Python

Pelatihan

from pyspark.ml.classification import LogisticRegression

logistic = LogisticRegression(maxIter=50, regParam=0.6, elasticNetParam=0.3)
model = logistic.fit(df_train)
print("Training iterations: ", model.summary.totalIterations)
Pengantar Spark SQL dalam Python

Ayo berlatih!

Pengantar Spark SQL dalam Python

Preparing Video For Download...