Fraudedetectie-algoritmen in actie

Fraudedetectie in Python

Charlotte Werger

Data Scientist

Traditionele fraudedetectie met regelgebaseerde systemen

Fraudedetectie in Python

Nadelen van regelgebaseerde systemen

Regelgebaseerde systemen hebben beperkingen:

  1. Vaste drempels per regel om fraude te bepalen
  2. Beperkt tot ja/nee-uitkomsten
  3. Leggen interacties tussen features niet vast
Fraudedetectie in Python

Waarom machine learning voor fraudedetectie?

  1. ML-modellen passen zich aan de data aan en kunnen mee veranderen
  2. Gebruiken alle data gecombineerd i.p.v. een drempel per feature
  3. Geven een score i.p.v. alleen ja/nee
  4. Meestal betere performance en te combineren met regels

Fraudedetectie in Python

Opfrisser: machinelearningmodellen

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn import metrics

# Stap 1: splits je features en labels in train- en testdata X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
# Stap 2: kies het model model = LinearRegression()
# Stap 3: fit het model op je trainingsdata model.fit(X_train, y_train)
# Stap 4: maak voorspellingen op je testdata y_predicted = model.predict(X_test)
# Stap 5: vergelijk y_test met voorspellingen en bereken metrics print (metrics.r2_score(y_test, y_predicted))
0.821206237313
Fraudedetectie in Python

Wat je gaat doen in de volgende hoofdstukken

  • Hoofdstuk 2. Supervised learning: train een model met bestaande fraudelabels

  • Hoofdstuk 3. Unsupervised learning: bepaal ‘verdacht’ gedrag zonder labels met je data

  • Hoofdstuk 4. Fraudedetectie met tekstdata: breid je modellen uit met text mining en topic modeling

Fraudedetectie in Python

Laten we oefenen!

Fraudedetectie in Python

Preparing Video For Download...