Machine Learning dengan PySpark
Andrew Collier
Data Scientist, Fathom Data






cars.select('mass', 'cyl', 'consumption').show(5)
+------+---+-----------+
| mass|cyl|consumption|
+------+---+-----------+
|1451.0| 6| 9.05|
|1129.0| 4| 6.53|
|1399.0| 4| 7.84|
|1147.0| 4| 7.84|
|1111.0| 4| 9.05|
+------+---+-----------+
Objek untuk membangun model. Dapat berupa pipeline.
regression = LinearRegression(labelCol='consumption')
Objek untuk mengevaluasi kinerja model.
evaluator = RegressionEvaluator(labelCol='consumption')
from pyspark.ml.tuning import CrossValidator, ParamGridBuilder
Grid nilai parameter (sementara kosong).
params = ParamGridBuilder().build()
Objek validasi silang.
cv = CrossValidator(estimator=regression,
estimatorParamMaps=params,
evaluator=evaluator,
numFolds=10, seed=13)
Terapkan validasi silang pada data latih.
cv = cv.fit(cars_train)
Berapa rata-rata RMSE di semua lipatan?
cv.avgMetrics
[0.800663722151572]
Buat prediksi pada data uji asli.
evaluator.evaluate(cv.transform(cars_test))
# RMSE pada data uji
0.745974203928479
Jauh lebih kecil daripada RMSE tervalidasi-silang.
# RMSE dari validasi silang
0.800663722151572
Split train-test sederhana akan memberi gambaran kinerja model yang terlalu optimistis.
Machine Learning dengan PySpark