Arbre de décision pour la classification

Machine learning avec des modèles arborescents en Python

Elie Kawerk

Data Scientist

Présentation du cours

Chapitre 1 : Arbre de classification et de régression (CART)
Chapitre 2 : Le compromis biais-variance
Chapitre 3 : Bagging et forêts aléatoires
Chapitre 4 : Boosting
Chapitre 5 : Ajustement du modèle

Arbre de classification

Séquence de questions if-else sur les caractéristiques individuelles.
Objectif : déduire les étiquettes de classe.
Capable de saisir les relations non linéaires entre les caractéristiques et les étiquettes.
Ne nécessite pas de mise à l'échelle des fonctionnalités (par exemple : Normalisation, …)

Ensemble de données sur le cancer du sein en 2D

BC2D

Diagramme d'arbre décisionnel

CART-rep

Arbre de classification dans scikit-learn

# Import DecisionTreeClassifier
from sklearn.tree import DecisionTreeClassifier
# Import train_test_split
from sklearn.model_selection import train_test_split
# Import accuracy_score
from sklearn.metrics import accuracy_score

# Split the dataset into 80% train, 20% test
X_train, X_test, y_train, y_test= train_test_split(X, y, 
                                                   test_size=0.2, 
                                                   stratify=y,
                                                   random_state=1)

# Instantiate dt
dt = DecisionTreeClassifier(max_depth=2, random_state=1)

Arbre de classification dans scikit-learn

# Fit dt to the training set
dt.fit(X_train,y_train) 

# Predict the test set labels
y_pred = dt.predict(X_test)

# Evaluate the test-set accuracy
accuracy_score(y_test, y_pred)

0.90350877192982459

Régions décisionnelles

Région de décision : région de l'espace des caractéristiques où toutes les instances sont attribuées à une seule étiquette de classe.

Limite de décision : surface séparant différentes régions de décision.

Régions décisionnelles : CART vs Modèle linéaire

LRvsDT

Passons à la pratique !

Machine learning avec des modèles arborescents en Python