Random Forest

Machine Learning dengan Model Berbasis Pohon di Python

Elie Kawerk

Data Scientist

Bagging

  • Estimator dasar: Decision Tree, Logistic Regression, Neural Net, ...

  • Tiap estimator dilatih pada sampel bootstrap yang berbeda dari training set

  • Estimator menggunakan semua fitur untuk latih dan prediksi

Machine Learning dengan Model Berbasis Pohon di Python

Keberagaman Tambahan dengan Random Forest

  • Estimator dasar: Decision Tree

  • Tiap estimator dilatih pada sampel bootstrap berbeda dengan ukuran sama seperti training set

  • RF menambah pengacakan saat melatih tiap pohon

  • d fitur diambil di tiap node tanpa pengembalian
    ( d < total jumlah fitur )

Machine Learning dengan Model Berbasis Pohon di Python

Random Forest: Pelatihan

RFtrain

Machine Learning dengan Model Berbasis Pohon di Python

Random Forest: Prediksi

RFpredict

Machine Learning dengan Model Berbasis Pohon di Python

Random Forest: Klasifikasi & Regresi

Klasifikasi:

  • Menggabungkan prediksi dengan voting mayoritas
  • RandomForestClassifier di scikit-learn

Regresi:

  • Menggabungkan prediksi dengan rata-rata
  • RandomForestRegressor di scikit-learn
Machine Learning dengan Model Berbasis Pohon di Python

RandomForestRegressor di sklearn (dataset auto)

# Basic imports
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error as MSE
# Set seed for reproducibility
SEED = 1

# Split dataset into 70% train and 30% test
X_train, X_test, y_train, y_test = train_test_split(X, y, 
                                                    test_size=0.3,
                                                    random_state=SEED)
Machine Learning dengan Model Berbasis Pohon di Python
# Inisialisasi random forest regressor 'rf' dengan 400 estimator
rf = RandomForestRegressor(n_estimators=400, 
                                   min_samples_leaf=0.12,  
                                   random_state=SEED)

# Fit 'rf' pada training set rf.fit(X_train, y_train) # Prediksi label test set 'y_pred' y_pred = rf.predict(X_test)
# Evaluasi RMSE test set
rmse_test = MSE(y_test, y_pred)**(1/2)

# Cetak RMSE test set
print('Test set RMSE of rf: {:.2f}'.format(rmse_test))
Test set RMSE of rf: 3.98
Machine Learning dengan Model Berbasis Pohon di Python

Feature Importance

Metode berbasis pohon: memungkinkan pengukuran pentingnya tiap fitur dalam prediksi.

Di sklearn:

  • seberapa sering node pohon memakai fitur tertentu (rata-rata berbobot) untuk mengurangi impuritas
  • diakses via atribut feature_importance_
Machine Learning dengan Model Berbasis Pohon di Python

Feature Importance di sklearn

import pandas as pd
import matplotlib.pyplot as plt

# Buat pd.Series untuk feature importance
importances_rf = pd.Series(rf.feature_importances_, index = X.columns)

# Urutkan importances_rf                                   
sorted_importances_rf = importances_rf.sort_values()   

# Plot bar horizontal
sorted_importances_rf.plot(kind='barh', color='lightgreen'); plt.show()
Machine Learning dengan Model Berbasis Pohon di Python

Feature Importance di sklearn

fimp_rf

Machine Learning dengan Model Berbasis Pohon di Python

Ayo berlatih!

Machine Learning dengan Model Berbasis Pohon di Python

Preparing Video For Download...