Revisione dei metodi di classificazione

Rilevamento delle frodi in Python

Charlotte Werger

Data Scientist

Cos'è la classificazione?

Obiettivo della classificazione: usare casi di frode noti per addestrare un modello a riconoscere nuove frodi

Esempi:

Email spam/Non spam
Transazione online fraudolenta: Sì/No
Tumore maligno/benigno?

Variabile da prevedere: $y \in {0,1} $

0: Classe negativa (casi "normali" maggioritari)

1: Classe positiva (casi di "frode" minoritari)

Metodi di classificazione comuni per rilevare frodi

Regressione logistica

Metodi di classificazione comuni per rilevare frodi

Rete neurale

Metodi di classificazione comuni per rilevare frodi

Alberi decisionali
Random forest

Alberi decisionali e random forest

Le random forest sono insiemi di alberi su sottoinsiemi casuali di feature

Random forest per il rilevamento frodi

from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier(random_state=42)

model.fit(X_train, y_train)

predicted = model.predict(X_test)

print (metrics.accuracy_score(y_test, predicted))

0.991324200913242

Facciamo pratica!

Rilevamento delle frodi in Python