Apprentissage supervisé avec scikit-learn
George Boorman
Core Curriculum Manager, DataCamp
Mesurer avec exactitude la performance du modèle :
Fraction d’échantillons correctement classés
Une métrique pas toujours utile
Classification pour prédire les transactions bancaires frauduleuses
Il est possible de construire un classificateur qui prédit qu’NONE transaction n’est frauduleuse
Précis à 99 %
Mais très mauvais pour ce qui est de prédire les transactions frauduleuses
N’atteint pas son objectif initial
Déséquilibre des classes : Fréquence inégale des classes
Nécessité d’une autre méthode d’évaluation des performances
from sklearn.metrics import classification_report, confusion_matrix
knn = KNeighborsClassifier(n_neighbors=7)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=42)
knn.fit(X_train, y_train)
y_pred = knn.predict(X_test)
print(confusion_matrix(y_test, y_pred))
[[1106 11]
[ 183 34]]
print(classification_report(y_test, y_pred))
precision recall f1-score support
0 0.86 0.99 0.92 1117
1 0.76 0.16 0.26 217
accuracy 0.85 1334
macro avg 0.81 0.57 0.59 1334
weighted avg 0.84 0.85 0.81 1334
Apprentissage supervisé avec scikit-learn