PySpark ile Machine Learning
Andrew Collier
Data Scientist, Fathom Data






cars.select('mass', 'cyl', 'consumption').show(5)
+------+---+-----------+
| mass|cyl|consumption|
+------+---+-----------+
|1451.0| 6| 9.05|
|1129.0| 4| 6.53|
|1399.0| 4| 7.84|
|1147.0| 4| 7.84|
|1111.0| 4| 9.05|
+------+---+-----------+
Modeli kuracak bir nesne. Bu bir pipeline olabilir.
regression = LinearRegression(labelCol='consumption')
Model performansını değerlendirecek bir nesne.
evaluator = RegressionEvaluator(labelCol='consumption')
from pyspark.ml.tuning import CrossValidator, ParamGridBuilder
Parametre değerleri ızgarası (şimdilik boş).
params = ParamGridBuilder().build()
Çapraz doğrulama nesnesi.
cv = CrossValidator(estimator=regression,
estimatorParamMaps=params,
evaluator=evaluator,
numFolds=10, seed=13)
Çapraz doğrulamayı eğitim verisine uygulayın.
cv = cv.fit(cars_train)
Katlar genelinde ortalama RMSE nedir?
cv.avgMetrics
[0.800663722151572]
Orijinal test verisi üzerinde tahmin yapın.
evaluator.evaluate(cv.transform(cars_test))
# Test verisinde RMSE
0.745974203928479
Çapraz doğrulanan RMSE’den belirgin ölçüde küçük.
# Çapraz doğrulamadan RMSE
0.800663722151572
Basit bir train-test bölmesi, modele fazla iyimser bir bakış verirdi.
PySpark ile Machine Learning