Entscheidungsbaum für die Klassifizierung

Maschinelles Lernen mit baumbasierten Modellen in Python

Elie Kawerk

Data Scientist

Kursübersicht

Kapitel 1: Klassifikations- und Regressionsbaum (CART)
Kapitel 2: Der Bias-Varianz-Kompromiss
Kapitel 3: Bagging und Random Forests
Kapitel 4: Boosting
Kapitel 5: Modelloptimierung

Klassifikationsbaum

Reihe von Wenn-Dann-Fragen zu einzelnen Merkmalen
Ziel: Klassenbezeichnungen ableiten
Kann nichtlineare Beziehungen zwischen Merkmalen und Labels erfassen
Keine Merkmalskalierung nötig (z. B.: Standardisierung, ...)

Brustkrebs-Datensatz in 2D

BC2D

Entscheidungsbaum-Diagramm

CART-rep

Klassifikationsbaum in scikit-learn

# Import DecisionTreeClassifier
from sklearn.tree import DecisionTreeClassifier
# Import train_test_split
from sklearn.model_selection import train_test_split
# Import accuracy_score
from sklearn.metrics import accuracy_score

# Split the dataset into 80% train, 20% test
X_train, X_test, y_train, y_test= train_test_split(X, y, 
                                                   test_size=0.2, 
                                                   stratify=y,
                                                   random_state=1)

# Instantiate dt
dt = DecisionTreeClassifier(max_depth=2, random_state=1)

Klassifikationsbaum in scikit-learn

# Fit dt to the training set
dt.fit(X_train,y_train) 

# Predict the test set labels
y_pred = dt.predict(X_test)

# Evaluate the test-set accuracy
accuracy_score(y_test, y_pred)

0.90350877192982459

Decision Regions

Decision region: Der Bereich im Merkmalsraum, wo alle Fälle zu genau einem Klassenlabel gehören.

Decision Boundary: Die Fläche, die verschiedene Entscheidungsbereiche voneinander trennt.

Decision Regions: CART vs. Lineares Modell

LRvsDT

Lass uns üben!

Maschinelles Lernen mit baumbasierten Modellen in Python