Werken met tekstdata

Fraudedetectie in Python

Charlotte Werger

Data Scientist

Je komt vaak tekstdata tegen bij fraudedetectie

Soorten nuttige tekstdata:

  1. E-mails van medewerkers en/of klanten
  2. Omschrijvingen van transacties
  3. Notities van medewerkers
  4. Veld ‘omschrijving’ op schadeformulier
  5. Opgenomen telefoongesprekken
  6. ...
Fraudedetectie in Python

Tekstminingtechnieken voor fraudedetectie

  1. Zoeken op woorden
  2. Sentimentanalyse
  3. Woordfrequenties en topicanalyse
  4. Schrijfstijl
Fraudedetectie in Python

Zoeken op woorden voor fraudedetectie

Verdachte woorden markeren:

  1. Simpel, rechttoe rechtaan en makkelijk uit te leggen
  2. Matches kun je gebruiken als filter boven op een ML-model
  3. Matches kun je gebruiken als feature in een ML-model

Fraudedetectie in Python

Woordaantallen om fraude te markeren met pandas

# Using a string operator to find words
df['email_body'].str.contains('money laundering')

# Select data that matches df.loc[df['email_body'].str.contains('money laundering', na=False)]
# Create a list of words to search for list_of_words = ['police', 'money laundering'] df.loc[df['email_body'].str.contains('|'.join(list_of_words) , na=False)]
# Create a fraud flag df['flag'] = np.where((df['email_body'].str.contains('|'.join (list_of_words)) == True), 1, 0)
Fraudedetectie in Python

Laten we oefenen!

Fraudedetectie in Python

Preparing Video For Download...