Memprediksi dan mengevaluasi

Pengantar Spark SQL dalam Python

Mark Plutowski

Data Scientist

Menerapkan model ke data evaluasi

predicted = df_trained.transform(df_test)
  • kolom prediction: double
  • kolom probability: vektor panjang dua
x = predicted.first
print("Right!" if x.label == int(x.prediction) else "Wrong")
Pengantar Spark SQL dalam Python

Mengevaluasi akurasi klasifikasi

model_stats = model.evaluate(df_eval)
type(model_stats)
pyspark.ml.classification.BinaryLogisticRegressionSummary)
print("\nKinerja: %.2f" % model_stats.areaUnderROC)
Pengantar Spark SQL dalam Python

Contoh klasifikasi teks

  • Label positif:

    • ['her', 'him', 'he', 'she', 'them', 'us', 'they', 'himself', 'herself', 'we']
  • Jumlah contoh: 5746

  • Jumlah contoh: 2873 positif, 2873 negatif
  • Jumlah contoh latih: 4607
  • Jumlah contoh uji: 1139
  • iterasi pelatihan: 21
  • AUC uji: 0.87
Pengantar Spark SQL dalam Python

Memprediksi kata akhir

  • Label positif: 'it'

  • Jumlah contoh: 438

  • Jumlah contoh: 219 positif, 219 negatif
  • Jumlah contoh latih: 340
  • Jumlah contoh uji: 98
  • AUC uji: 0.85
Pengantar Spark SQL dalam Python

Ayo berlatih!

Pengantar Spark SQL dalam Python

Preparing Video For Download...