Voorspellen en evalueren

Introductie tot Spark SQL in Python

Mark Plutowski

Data Scientist

Model toepassen op evaluatiedata

predicted = df_trained.transform(df_test)

x = predicted.first
print("Right!" if x.label == int(x.prediction) else "Wrong")

model_stats = model.evaluate(df_eval)

type(model_stats)

pyspark.ml.classification.BinaryLogisticRegressionSummary)

print("\nPerformance: %.2f" % model_stats.areaUnderROC)

Positieve labels:
- ['her', 'him', 'he', 'she', 'them', 'us', 'they', 'himself', 'herself', 'we']
Aantal voorbeelden: 5746
Aantal voorbeelden: 2873 positief, 2873 negatief
Aantal trainingsvoorbeelden: 4607
Aantal testvoorbeelden: 1139
Trainingsiteraties: 21
Test-AUC: 0.87

Introductie tot Spark SQL in Python