Machine Learning met PySpark
Andrew Collier
Data Scientist, Fathom Data






cars.select('mass', 'cyl', 'consumption').show(5)
+------+---+-----------+
| mass|cyl|consumption|
+------+---+-----------+
|1451.0| 6| 9.05|
|1129.0| 4| 6.53|
|1399.0| 4| 7.84|
|1147.0| 4| 7.84|
|1111.0| 4| 9.05|
+------+---+-----------+
Een object om het model te bouwen. Dit kan een pipeline zijn.
regression = LinearRegression(labelCol='consumption')
Een object om de modelprestatie te evalueren.
evaluator = RegressionEvaluator(labelCol='consumption')
from pyspark.ml.tuning import CrossValidator, ParamGridBuilder
Een rooster met parameterwaarden (nu leeg).
params = ParamGridBuilder().build()
Het kruisvalideringsobject.
cv = CrossValidator(estimator=regression,
estimatorParamMaps=params,
evaluator=evaluator,
numFolds=10, seed=13)
Pas kruisvalidering toe op de trainingsdata.
cv = cv.fit(cars_train)
Wat is de gemiddelde RMSE over de folds?
cv.avgMetrics
[0.800663722151572]
Maak voorspellingen op de originele testdata.
evaluator.evaluate(cv.transform(cars_test))
# RMSE op testdata
0.745974203928479
Veel kleiner dan de kruisgevalideerde RMSE.
# RMSE uit kruisvalidering
0.800663722151572
Een simpele train-test-split zou te optimistisch zijn over de modelprestatie.
Machine Learning met PySpark