PySpark ile Machine Learning
Andrew Collier
Data Scientist, Fathom Data
cars.select('mass', 'cyl', 'consumption').show(5)
+------+---+-----------+
| mass|cyl|consumption|
+------+---+-----------+
|1451.0| 6| 9.05|
|1129.0| 4| 6.53|
|1399.0| 4| 7.84|
|1147.0| 4| 7.84|
|1111.0| 4| 9.05|
+------+---+-----------+
Sabit terimli doğrusal regresyon. Eğitim verilerine uydurun.
regression = LinearRegression(labelCol='consumption', fitIntercept=True)
regression = regression.fit(cars_train)
Test verisinde RMSE'yi hesaplayın.
evaluator.evaluate(regression.transform(cars_test))
# Sabit terimli model için RMSE
0.745974203928479
Sabit terimsiz doğrusal regresyon. Eğitim verilerine uydurun.
regression = LinearRegression(labelCol='consumption', fitIntercept=False)
regression = regression.fit(cars_train)
Test verisinde RMSE'yi hesaplayın.
# Sabit terimsiz model için RMSE (ikinci model)
0.852819012439
# Sabit terimli model için RMSE (birinci model)
0.745974203928
from pyspark.ml.tuning import ParamGridBuilder # Parametre ızgarası oluşturun params = ParamGridBuilder()# Izgara noktaları ekleyin params = params.addGrid(regression.fitIntercept, [True, False])# Izgarayı oluşturun params = params.build()# Kaç model? print('Number of models to be tested: ', len(params))
Number of models to be tested: 2
Bir çapraz doğrulayıcı oluşturun ve eğitim verilerine uydurun.
cv = CrossValidator(estimator=regression,
estimatorParamMaps=params,
evaluator=evaluator)
cv = cv.setNumFolds(10).setSeed(13).fit(cars_train)
Her model için çapraz doğrulamalı RMSE nedir?
cv.avgMetrics
[0.800663722151, 0.907977823182]
# En iyi modele erişin
cv.bestModel
Ya da doğrudan çapraz doğrulayıcı nesnesini kullanın.
predictions = cv.transform(cars_test)
En iyi parametreyi alın.
cv.bestModel.explainParam('fitIntercept')
'fitIntercept: whether to fit an intercept term (default: True, current: True)'
params = ParamGridBuilder() \ .addGrid(regression.fitIntercept, [True, False]) \.addGrid(regression.regParam, [0.001, 0.01, 0.1, 1, 10]) \.addGrid(regression.elasticNetParam, [0, 0.25, 0.5, 0.75, 1]) \ .build()
Şimdi kaç model var?
print ('Number of models to be tested: ', len(params))
Number of models to be tested: 50
PySpark ile Machine Learning