Regressione

Machine Learning con PySpark

Andrew Collier

Data Scientist, Fathom Data

Consumo vs massa: scatter

Dispersione consumo carburante vs massa

Machine Learning con PySpark

Consumo vs massa: fit

Dispersione consumo carburante vs massa con retta di fit

Machine Learning con PySpark

Consumo vs massa: fit alternativi

Dispersione consumo vs massa con fit lineare e alternative

Machine Learning con PySpark

Consumo vs massa: residui

Dispersione consumo vs massa con fit e residui

Machine Learning con PySpark

Funzione di perdita

 

 

Funzione di perdita MSE

MSE = "Mean Squared Error"

Machine Learning con PySpark

Funzione di perdita: valori osservati

 

 

Funzione di perdita MSE

$y_i$ — valori osservati

Machine Learning con PySpark

Funzione di perdita: valori del modello

 

 

Funzione di perdita MSE

$y_i$ — valori osservati

$\hat{y_i}$ — valori del modello

Machine Learning con PySpark

Funzione di perdita: media

 

 

Funzione di perdita MSE

$y_i$ — valori osservati

$\hat{y_i}$ — valori del modello

Machine Learning con PySpark

Assembla i predittori

Predici consumption usando mass, cyl e type_dummy.

Unisci i predittori in una sola colonna.

+------+---+-------------+----------------------------+-----------+
|mass  |cyl|type_dummy   |features                    |consumption|
+------+---+-------------+----------------------------+-----------+
|1451.0|6  |(5,[0],[1.0])|(7,[0,1,2],[1451.0,6.0,1.0])|9.05       |
|1129.0|4  |(5,[2],[1.0])|(7,[0,1,4],[1129.0,4.0,1.0])|6.53       |
|1399.0|4  |(5,[2],[1.0])|(7,[0,1,4],[1399.0,4.0,1.0])|7.84       |
|1147.0|4  |(5,[1],[1.0])|(7,[0,1,3],[1147.0,4.0,1.0])|7.84       |
|1111.0|4  |(5,[3],[1.0])|(7,[0,1,5],[1111.0,4.0,1.0])|9.05       |
+------+---+-------------+----------------------------+-----------+
Machine Learning con PySpark

Crea il modello di regressione

from pyspark.ml.regression import LinearRegression

regression = LinearRegression(labelCol='consumption')

Adatta a cars_train (train).

regression = regression.fit(cars_train)

Predici su cars_test (test).

predictions = regression.transform(cars_test)
Machine Learning con PySpark

Esamina le predizioni

+-----------+------------------+
|consumption|prediction        |
+-----------+------------------+
|7.84       |8.92699470743403  |
|9.41       |9.379295891451353 |
|8.11       |7.23487264538364  |
|9.05       |9.409860194333735 |
|7.84       |7.059190923328711 |
|7.84       |7.785909738591766 |
|7.59       |8.129959405168547 |
|5.11       |6.836843743852942 |
|8.11       |7.17173702652015  |
+-----------+------------------+

Dispersione: predizioni vs valori reali

Machine Learning con PySpark

Calcola RMSE

from pyspark.ml.evaluation import RegressionEvaluator

# Trova RMSE (Root Mean Squared Error)
RegressionEvaluator(labelCol='consumption').evaluate(predictions)
0.708699086182001

RegressionEvaluator può anche calcolare:

  • mae (Mean Absolute Error)
  • r2 ($R^2$)
  • mse (Mean Squared Error).
Machine Learning con PySpark

Consumo vs massa: intercetta

Grafico con intercetta del modello

Machine Learning con PySpark

Esamina l'intercetta

regression.intercept
4.9450616833727095

Questo è il consumo (ipotetico) quando:

  • mass = 0
  • cyl = 0 e
  • il tipo veicolo è "Van".
Machine Learning con PySpark

Consumo vs massa: pendenza

Grafico con pendenza del modello

Machine Learning con PySpark

Esamina i coefficienti

regression.coefficients
DenseVector([0.0027, 0.1897, -1.309, -1.7933, -1.3594, -1.2917, -1.9693])
mass        0.0027
cyl         0.1897

Midsize    -1.3090
Small      -1.7933
Compact    -1.3594
Sporty     -1.2917
Large      -1.9693
Machine Learning con PySpark

Regressione per previsioni numeriche

Machine Learning con PySpark

Preparing Video For Download...