Voorspellen en evalueren

Introductie tot Spark SQL in Python

Mark Plutowski

Data Scientist

Model toepassen op evaluatiedata

predicted = df_trained.transform(df_test)
  • kolom prediction: double
  • kolom probability: vector van lengte twee
x = predicted.first
print("Right!" if x.label == int(x.prediction) else "Wrong")
Introductie tot Spark SQL in Python

Classificatienauwkeurigheid evalueren

model_stats = model.evaluate(df_eval)
type(model_stats)
pyspark.ml.classification.BinaryLogisticRegressionSummary)
print("\nPerformance: %.2f" % model_stats.areaUnderROC)
Introductie tot Spark SQL in Python

Voorbeeld: tekst classificeren

  • Positieve labels:

    • ['her', 'him', 'he', 'she', 'them', 'us', 'they', 'himself', 'herself', 'we']
  • Aantal voorbeelden: 5746

  • Aantal voorbeelden: 2873 positief, 2873 negatief
  • Aantal trainingsvoorbeelden: 4607
  • Aantal testvoorbeelden: 1139
  • Trainingsiteraties: 21
  • Test-AUC: 0.87
Introductie tot Spark SQL in Python

Het eindwoord voorspellen

  • Positief label: 'it'

  • Aantal voorbeelden: 438

  • Aantal voorbeelden: 219 positief, 219 negatief
  • Aantal trainingsvoorbeelden: 340
  • Aantal testvoorbeelden: 98
  • Test-AUC: 0.85
Introductie tot Spark SQL in Python

Laten we oefenen!

Introductie tot Spark SQL in Python

Preparing Video For Download...