Arbre de décision pour la classification

Machine learning avec des modèles arborescents en Python

Elie Kawerk

Data Scientist

Présentation du cours

  • Chapitre 1 : Arbre de classification et de régression (CART)

  • Chapitre 2 : Le compromis biais-variance

  • Chapitre 3 : Bagging et forêts aléatoires

  • Chapitre 4 : Boosting

  • Chapitre 5 : Ajustement du modèle

Machine learning avec des modèles arborescents en Python

Arbre de classification

  • Séquence de questions if-else sur les caractéristiques individuelles.

  • Objectif : déduire les étiquettes de classe.

  • Capable de saisir les relations non linéaires entre les caractéristiques et les étiquettes.

  • Ne nécessite pas de mise à l'échelle des fonctionnalités (par exemple : Normalisation, …)

Machine learning avec des modèles arborescents en Python

Ensemble de données sur le cancer du sein en 2D

BC2D

Machine learning avec des modèles arborescents en Python

Diagramme d'arbre décisionnel

CART-rep

Machine learning avec des modèles arborescents en Python

Arbre de classification dans scikit-learn

# Import DecisionTreeClassifier
from sklearn.tree import DecisionTreeClassifier
# Import train_test_split
from sklearn.model_selection import train_test_split
# Import accuracy_score
from sklearn.metrics import accuracy_score

# Split the dataset into 80% train, 20% test X_train, X_test, y_train, y_test= train_test_split(X, y, test_size=0.2, stratify=y, random_state=1)
# Instantiate dt dt = DecisionTreeClassifier(max_depth=2, random_state=1)
Machine learning avec des modèles arborescents en Python

Arbre de classification dans scikit-learn

# Fit dt to the training set
dt.fit(X_train,y_train) 

# Predict the test set labels
y_pred = dt.predict(X_test)

# Evaluate the test-set accuracy accuracy_score(y_test, y_pred)
0.90350877192982459
Machine learning avec des modèles arborescents en Python

Régions décisionnelles

Région de décision : région de l'espace des caractéristiques où toutes les instances sont attribuées à une seule étiquette de classe.

Limite de décision : surface séparant différentes régions de décision.

DR

Machine learning avec des modèles arborescents en Python

Régions décisionnelles : CART vs Modèle linéaire

LRvsDT

Machine learning avec des modèles arborescents en Python

Passons à la pratique !

Machine learning avec des modèles arborescents en Python

Preparing Video For Download...