Überwachtes Lernen mit scikit-learn
George Boorman
Core Curriculum Manager, DataCamp
Bewertung der Leistung eines Modells anhand der Korrektklassifikationsrate:
Anteil korrekt klassifizierter Daten
Nicht immer eine nützliche Kennzahl
Klassifikation zur Vorhersage betrügerischer Banktransaktionen
Szenario: ein Klassifikator sagt vorher, dass ALLE Transaktionen legitim sind
Korrektklassifikationsrate von 99 %
Aber ungeeignet zur Vorhersage betrügerischer Transaktionen
Verfehlt seinen ursprünglichen Zweck
Klassenungleichgewicht: ungleichmäßige Häufigkeit der Klassen
Alternative Methode zur Leistungsbewertung nötig
from sklearn.metrics import classification_report, confusion_matrix
knn = KNeighborsClassifier(n_neighbors=7)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=42)
knn.fit(X_train, y_train)
y_pred = knn.predict(X_test)
print(confusion_matrix(y_test, y_pred))
[[1106 11]
[ 183 34]]
print(classification_report(y_test, y_pred))
precision recall f1-score support
0 0.86 0.99 0.92 1117
1 0.76 0.16 0.26 217
accuracy 0.85 1334
macro avg 0.81 0.57 0.59 1334
weighted avg 0.84 0.85 0.81 1334
Überwachtes Lernen mit scikit-learn