Izgara Arama

PySpark ile Machine Learning

Andrew Collier

Data Scientist, Fathom Data

En iyi parametre değerini seçme

PySpark ile Machine Learning

Arabalar yeniden (bir kez daha)

cars.select('mass', 'cyl', 'consumption').show(5)
+------+---+-----------+
|  mass|cyl|consumption|
+------+---+-----------+
|1451.0|  6|       9.05|
|1129.0|  4|       6.53|
|1399.0|  4|       7.84|
|1147.0|  4|       7.84|
|1111.0|  4|       9.05|
+------+---+-----------+
PySpark ile Machine Learning

Sabit terimli yakıt tüketimi

Sabit terimli doğrusal regresyon. Eğitim verilerine uydurun.

regression = LinearRegression(labelCol='consumption', fitIntercept=True)
regression = regression.fit(cars_train)

Test verisinde RMSE'yi hesaplayın.

evaluator.evaluate(regression.transform(cars_test))
# Sabit terimli model için RMSE
0.745974203928479
PySpark ile Machine Learning

Sabit terimsiz yakıt tüketimi

Sabit terimsiz doğrusal regresyon. Eğitim verilerine uydurun.

regression = LinearRegression(labelCol='consumption', fitIntercept=False)
regression = regression.fit(cars_train)

Test verisinde RMSE'yi hesaplayın.

# Sabit terimsiz model için RMSE (ikinci model)
0.852819012439
# Sabit terimli model için RMSE    (birinci model)
0.745974203928
PySpark ile Machine Learning

Parametre ızgarası

from pyspark.ml.tuning import ParamGridBuilder

# Parametre ızgarası oluşturun
params = ParamGridBuilder()

# Izgara noktaları ekleyin params = params.addGrid(regression.fitIntercept, [True, False])
# Izgarayı oluşturun params = params.build()
# Kaç model? print('Number of models to be tested: ', len(params))
Number of models to be tested:  2
PySpark ile Machine Learning

Çapraz doğrulama ile ızgara arama

Bir çapraz doğrulayıcı oluşturun ve eğitim verilerine uydurun.

cv = CrossValidator(estimator=regression,
                    estimatorParamMaps=params,
                    evaluator=evaluator)
cv = cv.setNumFolds(10).setSeed(13).fit(cars_train)

Her model için çapraz doğrulamalı RMSE nedir?

cv.avgMetrics
[0.800663722151, 0.907977823182]
PySpark ile Machine Learning

En iyi model ve parametreler

# En iyi modele erişin
cv.bestModel

Ya da doğrudan çapraz doğrulayıcı nesnesini kullanın.

predictions = cv.transform(cars_test)

En iyi parametreyi alın.

cv.bestModel.explainParam('fitIntercept')
'fitIntercept: whether to fit an intercept term (default: True, current: True)'
PySpark ile Machine Learning

Daha karmaşık bir ızgara

params = ParamGridBuilder() \
            .addGrid(regression.fitIntercept, [True, False]) \

.addGrid(regression.regParam, [0.001, 0.01, 0.1, 1, 10]) \
.addGrid(regression.elasticNetParam, [0, 0.25, 0.5, 0.75, 1]) \ .build()

Şimdi kaç model var?

print ('Number of models to be tested: ', len(params))
Number of models to be tested:  50
PySpark ile Machine Learning

En iyi parametreleri bulun!

PySpark ile Machine Learning

Preparing Video For Download...