Çapraz Doğrulama

PySpark ile Machine Learning

Andrew Collier

Data Scientist, Fathom Data

Tam veri kümesi

PySpark ile Machine Learning

Veri kümesi eğitim ve test olarak bölünmüş

PySpark ile Machine Learning

Eğitim verisi birden çok katmana bölünmüş

PySpark ile Machine Learning

Kat üstüne kat - ilk kat

İlk katman

PySpark ile Machine Learning

Kat üstüne kat - ikinci kat

İkinci katman

PySpark ile Machine Learning

Kat üstüne kat - diğer katlar

Kalan katmanlar

PySpark ile Machine Learning

Arabalar: yeniden

cars.select('mass', 'cyl', 'consumption').show(5)
+------+---+-----------+
|  mass|cyl|consumption|
+------+---+-----------+
|1451.0|  6|       9.05|
|1129.0|  4|       6.53|
|1399.0|  4|       7.84|
|1147.0|  4|       7.84|
|1111.0|  4|       9.05|
+------+---+-----------+
PySpark ile Machine Learning

Estimator ve evaluator

Modeli kuracak bir nesne. Bu bir pipeline olabilir.

regression = LinearRegression(labelCol='consumption')

Model performansını değerlendirecek bir nesne.

evaluator = RegressionEvaluator(labelCol='consumption')
PySpark ile Machine Learning

Izgara ve çapraz doğrulayıcı

from pyspark.ml.tuning import CrossValidator, ParamGridBuilder

Parametre değerleri ızgarası (şimdilik boş).

params = ParamGridBuilder().build()

Çapraz doğrulama nesnesi.

cv = CrossValidator(estimator=regression,
                    estimatorParamMaps=params,
                    evaluator=evaluator,
                    numFolds=10, seed=13)
PySpark ile Machine Learning

Çapraz doğrulayıcılar da eğitime ihtiyaç duyar

Çapraz doğrulamayı eğitim verisine uygulayın.

cv = cv.fit(cars_train)

Katlar genelinde ortalama RMSE nedir?

cv.avgMetrics
[0.800663722151572]
PySpark ile Machine Learning

Çapraz doğrulayıcılar model gibi davranır

Orijinal test verisi üzerinde tahmin yapın.

evaluator.evaluate(cv.transform(cars_test))
# Test verisinde RMSE
0.745974203928479

Çapraz doğrulanan RMSE’den belirgin ölçüde küçük.

# Çapraz doğrulamadan RMSE
0.800663722151572

Basit bir train-test bölmesi, modele fazla iyimser bir bakış verirdi.

PySpark ile Machine Learning

Tüm modelleri çapraz doğrulayın!

PySpark ile Machine Learning

Preparing Video For Download...