Overzicht van classificatiemethoden

Fraudedetectie in Python

Charlotte Werger

Data Scientist

Wat is classificatie?

Doel van classificatie: Gebruik bekende fraudegevallen om een model te trainen dat nieuwe fraude herkent

Voorbeelden:

  • E-mail spam/niet-spam
  • Online transactie frauduleus: ja/nee
  • Tumor kwaadaardig/goedaardig?

Te voorspellen variabele: $y \in {0,1} $

0: Negatieve klasse ("meerderheid" normale gevallen)

1: Positieve klasse ("minderheid" fraudegevallen)

Fraudedetectie in Python

Veelgebruikte methoden voor fraudedetectie

  • Logistische regressie

Fraudedetectie in Python

Veelgebruikte methoden voor fraudedetectie

  • Neuraal netwerk

Fraudedetectie in Python

Veelgebruikte methoden voor fraudedetectie

  • Beslisbomen
  • Random forests

Fraudedetectie in Python

Beslisbomen en random forests

  • Random forests zijn verzamelingen bomen op willekeurige subsets van features

Fraudedetectie in Python

Random forests voor fraudedetectie

from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier(random_state=42)
model.fit(X_train, y_train)
predicted = model.predict(X_test)
print (metrics.accuracy_score(y_test, predicted))
0.991324200913242
Fraudedetectie in Python

Laten we oefenen!

Fraudedetectie in Python

Preparing Video For Download...