Machine Learning met boomgebaseerde modellen in Python
Elie Kawerk
Data Scientist
Hfdst. 1: Classification And Regression Tree (CART)
Hfdst. 2: Bias-variantie-afruil
Hfdst. 3: Bagging en Random Forests
Hfdst. 4: Boosting
Hfdst. 5: Modelafstemming
Reeks if-else-vragen over individuele features.
Doel: klasse-labels afleiden.
Kan niet-lineaire relaties tussen features en labels vastleggen.
Geen feature-scaling nodig (bv. standaardisatie, …)


# Importeer DecisionTreeClassifier from sklearn.tree import DecisionTreeClassifier # Importeer train_test_split from sklearn.model_selection import train_test_split # Importeer accuracy_score from sklearn.metrics import accuracy_score# Splits de dataset: 80% train, 20% test X_train, X_test, y_train, y_test= train_test_split(X, y, test_size=0.2, stratify=y, random_state=1)# Instantieer dt dt = DecisionTreeClassifier(max_depth=2, random_state=1)
# Fit dt op de trainingsset dt.fit(X_train,y_train) # Voorspel labels voor de testset y_pred = dt.predict(X_test)# Evalueer de nauwkeurigheid op de testset accuracy_score(y_test, y_pred)
0.90350877192982459
Beslissingsregio: gebied in de feature-ruimte waar alle instanties één label krijgen.
Beslissingsgrens: grens die beslissingsregio’s scheidt.


Machine Learning met boomgebaseerde modellen in Python