Ricerca a griglia

Machine Learning con PySpark

Andrew Collier

Data Scientist, Fathom Data

Scelta di un valore di parametro ottimale

Auto (di nuovo)

cars.select('mass', 'cyl', 'consumption').show(5)

+------+---+-----------+
|  mass|cyl|consumption|
+------+---+-----------+
|1451.0|  6|       9.05|
|1129.0|  4|       6.53|
|1399.0|  4|       7.84|
|1147.0|  4|       7.84|
|1111.0|  4|       9.05|
+------+---+-----------+

Consumo con intercetta

Regressione lineare con intercetta. Adatta ai dati di training.

regression = LinearRegression(labelCol='consumption', fitIntercept=True)
regression = regression.fit(cars_train)

Calcola l’RMSE sui dati di test.

evaluator.evaluate(regression.transform(cars_test))

# RMSE per il modello con intercetta
0.745974203928479

Consumo senza intercetta

Regressione lineare senza intercetta. Adatta ai dati di training.

regression = LinearRegression(labelCol='consumption', fitIntercept=False)
regression = regression.fit(cars_train)

Calcola l’RMSE sui dati di test.

# RMSE per il modello senza intercetta (secondo modello)
0.852819012439

# RMSE per il modello con intercetta    (primo modello)
0.745974203928

Griglia dei parametri

from pyspark.ml.tuning import ParamGridBuilder

# Create a parameter grid builder
params = ParamGridBuilder()

# Add grid points
params = params.addGrid(regression.fitIntercept, [True, False])

# Construct the grid
params = params.build()


# How many models?
print('Number of models to be tested: ', len(params))

Number of models to be tested:  2

Grid search con cross-validation

Crea un cross-validator e adatta ai dati di training.

cv = CrossValidator(estimator=regression,
                    estimatorParamMaps=params,
                    evaluator=evaluator)
cv = cv.setNumFolds(10).setSeed(13).fit(cars_train)

Qual è l’RMSE cross-validato per ogni modello?

cv.avgMetrics

[0.800663722151, 0.907977823182]

Miglior modello e parametri

# Access the best model
cv.bestModel

Oppure usa direttamente l’oggetto cross-validator.

predictions = cv.transform(cars_test)

Recupera il miglior parametro.

cv.bestModel.explainParam('fitIntercept')

'fitIntercept: whether to fit an intercept term (default: True, current: True)'

Una griglia più complessa

params = ParamGridBuilder() \
            .addGrid(regression.fitIntercept, [True, False]) \

            .addGrid(regression.regParam, [0.001, 0.01, 0.1, 1, 10]) \

            .addGrid(regression.elasticNetParam, [0, 0.25, 0.5, 0.75, 1]) \
            .build()

Quanti modelli ora?

print ('Number of models to be tested: ', len(params))

Number of models to be tested:  50

Trova i parametri migliori!

Machine Learning con PySpark