Maschinelles Lernen mit baumbasierten Modellen in Python
Elie Kawerk
Data Scientist
Kapitel 1: Klassifikations- und Regressionsbaum (CART)
Kapitel 2: Der Bias-Varianz-Kompromiss
Kapitel 3: Bagging und Random Forests
Kapitel 4: Boosting
Kapitel 5: Modelloptimierung
Reihe von Wenn-Dann-Fragen zu einzelnen Merkmalen
Ziel: Klassenbezeichnungen ableiten
Kann nichtlineare Beziehungen zwischen Merkmalen und Labels erfassen
Keine Merkmalskalierung nötig (z. B.: Standardisierung, ...)


# Import DecisionTreeClassifier from sklearn.tree import DecisionTreeClassifier # Import train_test_split from sklearn.model_selection import train_test_split # Import accuracy_score from sklearn.metrics import accuracy_score# Split the dataset into 80% train, 20% test X_train, X_test, y_train, y_test= train_test_split(X, y, test_size=0.2, stratify=y, random_state=1)# Instantiate dt dt = DecisionTreeClassifier(max_depth=2, random_state=1)
# Fit dt to the training set dt.fit(X_train,y_train) # Predict the test set labels y_pred = dt.predict(X_test)# Evaluate the test-set accuracy accuracy_score(y_test, y_pred)
0.90350877192982459
Decision region: Der Bereich im Merkmalsraum, wo alle Fälle zu genau einem Klassenlabel gehören.
Decision Boundary: Die Fläche, die verschiedene Entscheidungsbereiche voneinander trennt.


Maschinelles Lernen mit baumbasierten Modellen in Python