Regresi

Machine Learning dengan PySpark

Andrew Collier

Data Scientist, Fathom Data

Konsumsi vs massa: sebar

Plot sebar konsumsi bahan bakar vs massa

Machine Learning dengan PySpark

Konsumsi vs massa: garis pas

Plot sebar konsumsi bahan bakar vs massa dengan garis linear

Machine Learning dengan PySpark

Konsumsi vs massa: alternatif garis pas

Plot sebar konsumsi bahan bakar vs massa dengan beberapa garis pas alternatif

Machine Learning dengan PySpark

Konsumsi vs massa: residual

Plot sebar konsumsi bahan bakar vs massa dengan garis pas dan residual

Machine Learning dengan PySpark

Fungsi loss

 

 

Fungsi loss Mean Squared Error

MSE = "Mean Squared Error"

Machine Learning dengan PySpark

Fungsi loss: Nilai teramati

 

 

Fungsi loss Mean Squared Error

$y_i$ — nilai teramati

Machine Learning dengan PySpark

Fungsi loss: Nilai model

 

 

Fungsi loss Mean Squared Error

$y_i$ — nilai teramati

$\hat{y_i}$ — nilai model

Machine Learning dengan PySpark

Fungsi loss: Rata-rata

 

 

Fungsi loss Mean Squared Error

$y_i$ — nilai teramati

$\hat{y_i}$ — nilai model

Machine Learning dengan PySpark

Satukan prediktor

Prediksi consumption dengan mass, cyl, dan type_dummy.

Gabungkan prediktor ke satu kolom.

+------+---+-------------+----------------------------+-----------+
|mass  |cyl|type_dummy   |features                    |consumption|
+------+---+-------------+----------------------------+-----------+
|1451.0|6  |(5,[0],[1.0])|(7,[0,1,2],[1451.0,6.0,1.0])|9.05       |
|1129.0|4  |(5,[2],[1.0])|(7,[0,1,4],[1129.0,4.0,1.0])|6.53       |
|1399.0|4  |(5,[2],[1.0])|(7,[0,1,4],[1399.0,4.0,1.0])|7.84       |
|1147.0|4  |(5,[1],[1.0])|(7,[0,1,3],[1147.0,4.0,1.0])|7.84       |
|1111.0|4  |(5,[3],[1.0])|(7,[0,1,5],[1111.0,4.0,1.0])|9.05       |
+------+---+-------------+----------------------------+-----------+
Machine Learning dengan PySpark

Bangun model regresi

from pyspark.ml.regression import LinearRegression

regression = LinearRegression(labelCol='consumption')

Latih pada cars_train (data latih).

regression = regression.fit(cars_train)

Prediksi pada cars_test (data uji).

predictions = regression.transform(cars_test)
Machine Learning dengan PySpark

Tinjau prediksi

+-----------+------------------+
|consumption|prediction        |
+-----------+------------------+
|7.84       |8.92699470743403  |
|9.41       |9.379295891451353 |
|8.11       |7.23487264538364  |
|9.05       |9.409860194333735 |
|7.84       |7.059190923328711 |
|7.84       |7.785909738591766 |
|7.59       |8.129959405168547 |
|5.11       |6.836843743852942 |
|8.11       |7.17173702652015  |
+-----------+------------------+

Plot sebar prediksi vs aktual

Machine Learning dengan PySpark

Hitung RMSE

from pyspark.ml.evaluation import RegressionEvaluator

# Find RMSE (Root Mean Squared Error)
RegressionEvaluator(labelCol='consumption').evaluate(predictions)
0.708699086182001

RegressionEvaluator juga dapat menghitung metrik berikut:

  • mae (Mean Absolute Error)
  • r2 ($R^2$)
  • mse (Mean Squared Error).
Machine Learning dengan PySpark

Konsumsi vs massa: intersep

Plot yang menampilkan intersep model

Machine Learning dengan PySpark

Tinjau intersep

regression.intercept
4.9450616833727095

Ini adalah konsumsi bahan bakar pada kasus (hipotetis) ketika:

  • mass = 0
  • cyl = 0 dan
  • tipe kendaraan adalah 'Van'.
Machine Learning dengan PySpark

Konsumsi vs massa: kemiringan

Plot yang menampilkan kemiringan model

Machine Learning dengan PySpark

Tinjau koefisien

regression.coefficients
DenseVector([0.0027, 0.1897, -1.309, -1.7933, -1.3594, -1.2917, -1.9693])
mass        0.0027
cyl         0.1897

Midsize    -1.3090
Small      -1.7933
Compact    -1.3594
Sporty     -1.2917
Large      -1.9693
Machine Learning dengan PySpark

Regresi untuk prediksi numerik

Machine Learning dengan PySpark

Preparing Video For Download...