Regresyon

PySpark ile Machine Learning

Andrew Collier

Data Scientist, Fathom Data

Tüketim ve kütle: saçılım

Yakıt tüketimi ile kütle saçılım grafiği

PySpark ile Machine Learning

Tüketim ve kütle: uyum

Doğrusal uyumlu yakıt tüketimi ve kütle saçılım grafiği

PySpark ile Machine Learning

Tüketim ve kütle: alternatif uyumlar

Doğrusal uyum ve alternatiflerle yakıt tüketimi ve kütle saçılım grafiği

PySpark ile Machine Learning

Tüketim ve kütle: artıklar

Doğrusal uyum ve artıklarla yakıt tüketimi ve kütle saçılım grafiği

PySpark ile Machine Learning

Kayıp fonksiyonu

 

 

Ortalama Kare Hata kayıp fonksiyonu

MSE = "Mean Squared Error"

PySpark ile Machine Learning

Kayıp fonksiyonu: Gözlenen değerler

 

 

Ortalama Kare Hata kayıp fonksiyonu

$y_i$ — gözlenen değerler

PySpark ile Machine Learning

Kayıp fonksiyonu: Model değerleri

 

 

Ortalama Kare Hata kayıp fonksiyonu

$y_i$ — gözlenen değerler

$\hat{y_i}$ — model değerleri

PySpark ile Machine Learning

Kayıp fonksiyonu: Ortalama

 

 

Ortalama Kare Hata kayıp fonksiyonu

$y_i$ — gözlenen değerler

$\hat{y_i}$ — model değerleri

PySpark ile Machine Learning

Yordayıcıları birleştirin

consumption değişkenini mass, cyl ve type_dummy ile tahmin edin.

Yordayıcıları tek bir sütunda birleştirin.

+------+---+-------------+----------------------------+-----------+
|mass  |cyl|type_dummy   |features                    |consumption|
+------+---+-------------+----------------------------+-----------+
|1451.0|6  |(5,[0],[1.0])|(7,[0,1,2],[1451.0,6.0,1.0])|9.05       |
|1129.0|4  |(5,[2],[1.0])|(7,[0,1,4],[1129.0,4.0,1.0])|6.53       |
|1399.0|4  |(5,[2],[1.0])|(7,[0,1,4],[1399.0,4.0,1.0])|7.84       |
|1147.0|4  |(5,[1],[1.0])|(7,[0,1,3],[1147.0,4.0,1.0])|7.84       |
|1111.0|4  |(5,[3],[1.0])|(7,[0,1,5],[1111.0,4.0,1.0])|9.05       |
+------+---+-------------+----------------------------+-----------+
PySpark ile Machine Learning

Regresyon modeli oluşturun

from pyspark.ml.regression import LinearRegression

regression = LinearRegression(labelCol='consumption')

cars_train (eğitim verisi) ile eğitin.

regression = regression.fit(cars_train)

cars_test (test verisi) üzerinde tahmin yapın.

predictions = regression.transform(cars_test)
PySpark ile Machine Learning

Tahminleri inceleyin

+-----------+------------------+
|consumption|prediction        |
+-----------+------------------+
|7.84       |8.92699470743403  |
|9.41       |9.379295891451353 |
|8.11       |7.23487264538364  |
|9.05       |9.409860194333735 |
|7.84       |7.059190923328711 |
|7.84       |7.785909738591766 |
|7.59       |8.129959405168547 |
|5.11       |6.836843743852942 |
|8.11       |7.17173702652015  |
+-----------+------------------+

Tahminler ve gerçekler saçılım grafiği

PySpark ile Machine Learning

RMSE hesaplayın

from pyspark.ml.evaluation import RegressionEvaluator

# RMSE (Kök Ortalama Kare Hata) bulun
RegressionEvaluator(labelCol='consumption').evaluate(predictions)
0.708699086182001

RegressionEvaluator şu metrikleri de hesaplar:

  • mae (Ortalama Mutlak Hata)
  • r2 ($R^2$)
  • mse (Ortalama Kare Hata).
PySpark ile Machine Learning

Tüketim ve kütle: kesişim

Model kesişimini gösteren grafik

PySpark ile Machine Learning

Kesişimi inceleyin

regression.intercept
4.9450616833727095

Bu, (varsayımsal olarak) şu durumda yakıt tüketimidir:

  • mass = 0
  • cyl = 0 ve
  • araç türü 'Van'.
PySpark ile Machine Learning

Tüketim ve kütle: eğim

Model eğimini gösteren grafik

PySpark ile Machine Learning

Katsayıları inceleyin

regression.coefficients
DenseVector([0.0027, 0.1897, -1.309, -1.7933, -1.3594, -1.2917, -1.9693])
mass        0.0027
cyl         0.1897

Midsize    -1.3090
Small      -1.7933
Compact    -1.3594
Sporty     -1.2917
Large      -1.9693
PySpark ile Machine Learning

Sayısal tahminler için regresyon

PySpark ile Machine Learning

Preparing Video For Download...