Çapraz Doğrulama

PySpark ile Machine Learning

Andrew Collier

Data Scientist, Fathom Data

Tam veri kümesi

Veri kümesi eğitim ve test olarak bölünmüş

Eğitim verisi birden çok katmana bölünmüş

Kat üstüne kat - ilk kat

İlk katman

Kat üstüne kat - ikinci kat

İkinci katman

Kat üstüne kat - diğer katlar

Kalan katmanlar

Arabalar: yeniden

cars.select('mass', 'cyl', 'consumption').show(5)

+------+---+-----------+
|  mass|cyl|consumption|
+------+---+-----------+
|1451.0|  6|       9.05|
|1129.0|  4|       6.53|
|1399.0|  4|       7.84|
|1147.0|  4|       7.84|
|1111.0|  4|       9.05|
+------+---+-----------+

Estimator ve evaluator

Modeli kuracak bir nesne. Bu bir pipeline olabilir.

regression = LinearRegression(labelCol='consumption')

Model performansını değerlendirecek bir nesne.

evaluator = RegressionEvaluator(labelCol='consumption')

Izgara ve çapraz doğrulayıcı

from pyspark.ml.tuning import CrossValidator, ParamGridBuilder

Parametre değerleri ızgarası (şimdilik boş).

params = ParamGridBuilder().build()

Çapraz doğrulama nesnesi.

cv = CrossValidator(estimator=regression,
                    estimatorParamMaps=params,
                    evaluator=evaluator,
                    numFolds=10, seed=13)

Çapraz doğrulayıcılar da eğitime ihtiyaç duyar

Çapraz doğrulamayı eğitim verisine uygulayın.

cv = cv.fit(cars_train)

Katlar genelinde ortalama RMSE nedir?

cv.avgMetrics

[0.800663722151572]

Çapraz doğrulayıcılar model gibi davranır

Orijinal test verisi üzerinde tahmin yapın.

evaluator.evaluate(cv.transform(cars_test))

# Test verisinde RMSE
0.745974203928479

Çapraz doğrulanan RMSE’den belirgin ölçüde küçük.

# Çapraz doğrulamadan RMSE
0.800663722151572

Basit bir train-test bölmesi, modele fazla iyimser bir bakış verirdi.

Tüm modelleri çapraz doğrulayın!

PySpark ile Machine Learning