Düzenlileştirilmiş regresyon

scikit-learn ile Supervised Learning

George Boorman

Core Curriculum Manager, DataCamp

Neden düzenlileştirme?

  • Hatırlatma: Doğrusal regresyon bir kayıp fonksiyonunu en aza indirir

  • Her özellik değişkeni için bir katsayı, $a$, ve ayrıca $b$ seçer

  • Büyük katsayılar aşırı uyuma yol açabilir

  • Düzenlileştirme: Büyük katsayıları cezalandırır

scikit-learn ile Supervised Learning

Ridge regresyonu

  • Kayıp fonksiyonu = OLS kaybı + $$ \alpha * \sum_{i=1}^{n} {a_i}^2$$

  • Ridge, büyük pozitif/negatif katsayıları cezalandırır

  • $\alpha$: Seçilmesi gereken parametre

  • $\alpha$ seçimi, KNN'de k seçimine benzer

  • Hiperparametre: Model parametrelerini iyileştirmek için kullanılan değişken

  • $\alpha$ model karmaşıklığını kontrol eder

    • $\alpha$ = 0 = OLS (Aşırı uyuma yol açabilir)

    • Çok yüksek $\alpha$: Eksik uyuma yol açabilir

scikit-learn ile Supervised Learning

scikit-learn ile Ridge regresyonu

from sklearn.linear_model import Ridge

scores = [] for alpha in [0.1, 1.0, 10.0, 100.0, 1000.0]:
ridge = Ridge(alpha=alpha)
ridge.fit(X_train, y_train) y_pred = ridge.predict(X_test)
scores.append(ridge.score(X_test, y_test))
print(scores)
[0.2828466623222221, 0.28320633574804777, 0.2853000732200006, 
 0.26423984812668133, 0.19292424694100963]
scikit-learn ile Supervised Learning

Lasso regresyonu

  • Kayıp fonksiyonu = OLS kaybı + $$ \alpha * \sum_{i=1}^{n} |a_i|$$
scikit-learn ile Supervised Learning

scikit-learn ile Lasso regresyonu

from sklearn.linear_model import Lasso

scores = [] for alpha in [0.01, 1.0, 10.0, 20.0, 50.0]: lasso = Lasso(alpha=alpha) lasso.fit(X_train, y_train) lasso_pred = lasso.predict(X_test) scores.append(lasso.score(X_test, y_test)) print(scores)
[0.99991649071123, 0.99961700284223, 0.93882227671069, 0.74855318676232, -0.05741034640016]
scikit-learn ile Supervised Learning

Özellik seçimi için Lasso regresyonu

  • Lasso, veri setindeki önemli özellikleri seçer

  • Daha az önemli özelliklerin katsayılarını sıfıra küçültür

  • Sıfıra küçültülmeyen özellikler lasso tarafından seçilir

scikit-learn ile Supervised Learning

scikit-learn ile özellik seçimi için Lasso

from sklearn.linear_model import Lasso

X = diabetes_df.drop("glucose", axis=1).values y = diabetes_df["glucose"].values names = diabetes_df.drop("glucose", axis=1).columns
lasso = Lasso(alpha=0.1)
lasso_coef = lasso.fit(X, y).coef_
plt.bar(names, lasso_coef) plt.xticks(rotation=45) plt.show()
scikit-learn ile Supervised Learning

scikit-learn ile özellik seçimi için Lasso

Her özellik için katsayıların çubuk grafiği; çoğu sıfıra yakın, diabetes 25 değeriyle öne çıkıyor

scikit-learn ile Supervised Learning

Hadi pratik yapalım!

scikit-learn ile Supervised Learning

Preparing Video For Download...