Revisione dei metodi di classificazione

Rilevamento delle frodi in Python

Charlotte Werger

Data Scientist

Cos'è la classificazione?

Obiettivo della classificazione: usare casi di frode noti per addestrare un modello a riconoscere nuove frodi

Esempi:

  • Email spam/Non spam
  • Transazione online fraudolenta: Sì/No
  • Tumore maligno/benigno?

Variabile da prevedere: $y \in {0,1} $

0: Classe negativa (casi "normali" maggioritari)

1: Classe positiva (casi di "frode" minoritari)

Rilevamento delle frodi in Python

Metodi di classificazione comuni per rilevare frodi

  • Regressione logistica

Rilevamento delle frodi in Python

Metodi di classificazione comuni per rilevare frodi

  • Rete neurale

Rilevamento delle frodi in Python

Metodi di classificazione comuni per rilevare frodi

  • Alberi decisionali
  • Random forest

Rilevamento delle frodi in Python

Alberi decisionali e random forest

  • Le random forest sono insiemi di alberi su sottoinsiemi casuali di feature

Rilevamento delle frodi in Python

Random forest per il rilevamento frodi

from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier(random_state=42)
model.fit(X_train, y_train)
predicted = model.predict(X_test)
print (metrics.accuracy_score(y_test, predicted))
0.991324200913242
Rilevamento delle frodi in Python

Facciamo pratica!

Rilevamento delle frodi in Python

Preparing Video For Download...