Random Forests

Maschinelles Lernen mit baumbasierten Modellen in Python

Elie Kawerk

Data Scientist

Bagging

  • Base estimator: Entscheidungsbaum, logistische Regression, neuronales Netz, ...

  • Jeder estimator wird mit einer eigenen Bootstrap-Stichprobe aus dem Trainingsdatensatz trainiert.

  • Estimator nutzen alle Merkmale für das Training und die Vorhersage.

Maschinelles Lernen mit baumbasierten Modellen in Python

Mehr Vielfalt mit Random Forests

  • Base estimator: Entscheidungsbaum

  • Jeder Schätzer wird mit einer anderen Bootstrap-Stichprobe trainiert, die genauso groß ist wie der Trainingsdatensatz.

  • RF macht das Training einzelner Bäume noch zufälliger.

  • $d$ Die Merkmals-Stichproben werden an jedem Knoten ohne Ersatz gezogen.
    ( $d < \text{Gesamtanzahl aller Merkmale}$ )

Maschinelles Lernen mit baumbasierten Modellen in Python

Random Forests: Training

RFtrain

Maschinelles Lernen mit baumbasierten Modellen in Python

Random Forests: Vorhersage

RFpredict

Maschinelles Lernen mit baumbasierten Modellen in Python

Random Forests: Klassifizierung & Regression

Classification:

  • Agreggiert Vorhersagen durch Mehrheitsbeschluss
  • RandomForestClassifier in scikit-learn

Regression:

  • Aggregiert Vorhersagen durch Mittelwertbildung
  • RandomForestRegressor in scikit-learn
Maschinelles Lernen mit baumbasierten Modellen in Python

Random Forests Regressor in sklearn (Auto-Datensatz)

# Basic imports
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error as MSE
# Set seed for reproducibility
SEED = 1

# Split dataset into 70% train and 30% test
X_train, X_test, y_train, y_test = train_test_split(X, y, 
                                                    test_size=0.3,
                                                    random_state=SEED)
Maschinelles Lernen mit baumbasierten Modellen in Python
# Instantiate a random forests regressor 'rf' 400 estimators
rf = RandomForestRegressor(n_estimators=400, 
                                   min_samples_leaf=0.12,  
                                   random_state=SEED)

# Fit 'rf' to the training set rf.fit(X_train, y_train) # Predict the test set labels 'y_pred' y_pred = rf.predict(X_test)
# Evaluate the test set RMSE
rmse_test = MSE(y_test, y_pred)**(1/2)

# Print the test set RMSE
print('Test set RMSE of rf: {:.2f}'.format(rmse_test))
Test set RMSE of rf: 3.98
Maschinelles Lernen mit baumbasierten Modellen in Python

Merkmalsrelevanz

Baumbasierte Methoden: Damit kann man die Relevanz jedes Merkmals bei der Vorhersage messen.

In sklearn:

  • wie oft die Baumknoten ein bestimmtes Funktion nutzen (gewichteter Durchschnitt), um eine Unreinheit zu reduzieren.
  • Zugriff über das Attribut feature_importance_
Maschinelles Lernen mit baumbasierten Modellen in Python

Merkmalsrelevanz in sklearn

import pandas as pd
import matplotlib.pyplot as plt

# Create a pd.Series of features importances
importances_rf = pd.Series(rf.feature_importances_, index = X.columns)

# Sort importances_rf                                   
sorted_importances_rf = importances_rf.sort_values()   

# Make a horizontal bar plot
sorted_importances_rf.plot(kind='barh', color='lightgreen'); plt.show()
Maschinelles Lernen mit baumbasierten Modellen in Python

Merkmalsrelevanz in sklearn

fimp_rf

Maschinelles Lernen mit baumbasierten Modellen in Python

Lass uns üben!

Maschinelles Lernen mit baumbasierten Modellen in Python

Preparing Video For Download...