Regressie

Machine Learning met PySpark

Andrew Collier

Data Scientist, Fathom Data

Verbruik vs. massa: spreiding

Spreidingsdiagram: brandstofverbruik versus massa

Verbruik vs. massa: fit

Spreidingsdiagram: verbruik vs. massa met lineaire fit

Verbruik vs. massa: alternatieve fits

Spreidingsdiagram: verbruik vs. massa met lineaire fit en alternatieven

Verbruik vs. massa: residuen

Spreidingsdiagram: verbruik vs. massa met lineaire fit en residuen

Verliesfunctie

Verliesfunctie Mean Square Error

MSE = "Mean Squared Error"

Verliesfunctie: Geobserveerde waarden

Verliesfunctie Mean Square Error

$y_i$ — geobserveerde waarden

Verliesfunctie: Modelwaarden

Verliesfunctie Mean Square Error

$y_i$ — geobserveerde waarden

$\hat{y_i}$ — modelwaarden

Verliesfunctie: Gemiddelde

Verliesfunctie Mean Square Error

$y_i$ — geobserveerde waarden

$\hat{y_i}$ — modelwaarden

Predictors samenvoegen

Voorspel consumption met mass, cyl en type_dummy.

Voeg predictors samen in één kolom.

+------+---+-------------+----------------------------+-----------+
|mass  |cyl|type_dummy   |features                    |consumption|
+------+---+-------------+----------------------------+-----------+
|1451.0|6  |(5,[0],[1.0])|(7,[0,1,2],[1451.0,6.0,1.0])|9.05       |
|1129.0|4  |(5,[2],[1.0])|(7,[0,1,4],[1129.0,4.0,1.0])|6.53       |
|1399.0|4  |(5,[2],[1.0])|(7,[0,1,4],[1399.0,4.0,1.0])|7.84       |
|1147.0|4  |(5,[1],[1.0])|(7,[0,1,3],[1147.0,4.0,1.0])|7.84       |
|1111.0|4  |(5,[3],[1.0])|(7,[0,1,5],[1111.0,4.0,1.0])|9.05       |
+------+---+-------------+----------------------------+-----------+

Regressiemodel bouwen

from pyspark.ml.regression import LinearRegression

regression = LinearRegression(labelCol='consumption')

Fit op cars_train (trainingsdata).

regression = regression.fit(cars_train)

Voorspel op cars_test (testdata).

predictions = regression.transform(cars_test)

Voorspellingen bekijken

+-----------+------------------+
|consumption|prediction        |
+-----------+------------------+
|7.84       |8.92699470743403  |
|9.41       |9.379295891451353 |
|8.11       |7.23487264538364  |
|9.05       |9.409860194333735 |
|7.84       |7.059190923328711 |
|7.84       |7.785909738591766 |
|7.59       |8.129959405168547 |
|5.11       |6.836843743852942 |
|8.11       |7.17173702652015  |
+-----------+------------------+

Spreidingsdiagram: voorspellingen vs. werkelijkheid

RMSE berekenen

from pyspark.ml.evaluation import RegressionEvaluator

# Vind RMSE (Root Mean Squared Error)
RegressionEvaluator(labelCol='consumption').evaluate(predictions)

0.708699086182001

Een RegressionEvaluator kan ook deze metrics berekenen:

mae (Mean Absolute Error)
r2 ($R^2$)
mse (Mean Squared Error).

Verbruik vs. massa: intercept

Plot met modelintercept

Intercept bekijken

regression.intercept

4.9450616833727095

Dit is het verbruik in het (hypothetische) geval dat:

mass = 0
cyl = 0 en
het voertuigtype 'Van' is.

Verbruik vs. massa: helling

Plot met modelslope

Coefficients bekijken

regression.coefficients

DenseVector([0.0027, 0.1897, -1.309, -1.7933, -1.3594, -1.2917, -1.9693])

mass        0.0027
cyl         0.1897

Midsize    -1.3090
Small      -1.7933
Compact    -1.3594
Sporty     -1.2917
Large      -1.9693

Regressie voor numerieke voorspellingen

Machine Learning met PySpark