Stokastik Gradyan Artırma (SGB)

Python ile Ağaç Tabanlı Modellerle Machine Learning

Elie Kawerk

Data Scientist

Gradyan Artırma: Eksiler

GB kapsamlı bir arama süreci içerir.
Her CART, en iyi bölme noktalarını ve özellikleri bulmak için eğitilir.
Bu, CART’ların aynı bölme noktalarını ve hatta aynı özellikleri kullanmasına yol açabilir.

Stokastik Gradyan Artırma

Her ağaç, eğitim verilerinin rastgele bir satır altkümesinde eğitilir.
Örneklenen gözlemler (eğitim setinin %40–%80’i) yinelemesiz örneklenir.
Bölme noktaları seçilirken özellikler (yinelemesiz) örneklenir.
Sonuç: daha fazla ansambl çeşitliliği.
Etki: ağaç ansamblına ek varyans katmak.

Stokastik Gradyan Artırma: Eğitim

SGB

sklearn ile Stokastik Gradyan Artırma (auto veri kümesi)

# Import models and utility functions
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error as MSE

# Set seed for reproducibility
SEED = 1

# Split dataset into 70% train and 30% test
X_train, X_test, y_train, y_test = train_test_split(X,y, 
                                                    test_size=0.3, 
                                                    random_state=SEED)

sklearn ile Stokastik Gradyan Artırma (auto veri kümesi)

# Instantiate a stochastic GradientBoostingRegressor 'sgbt'
sgbt = GradientBoostingRegressor(max_depth=1, 
                                 subsample=0.8,
                                 max_features=0.2,
                                 n_estimators=300,             
                                 random_state=SEED)


# Fit 'sgbt' to the training set
sgbt.fit(X_train, y_train)

# Predict the test set labels
y_pred = sgbt.predict(X_test)

sklearn ile Stokastik Gradyan Artırma (auto veri kümesi)

# Evaluate test set RMSE 'rmse_test'
rmse_test = MSE(y_test, y_pred)**(1/2)

# Print 'rmse_test'
print('Test set RMSE: {:.2f}'.format(rmse_test))

Test set RMSE: 3.95

Hadi pratik yapalım!

Python ile Ağaç Tabanlı Modellerle Machine Learning