Fraudedetectie in Python
Charlotte Werger
Data Scientist
Met LDA krijg je:
Je eigen topicmodel bouwen:

from gensim import corpora
# Maak dictionary: aantal keer dat een woord voorkomt
dictionary = corpora.Dictionary(cleaned_emails)
# Filter (niet)frequente woorden
dictionary.filter_extremes(no_below=5, keep_n=50000)
# Maak corpus
corpus = [dictionary.doc2bow(text) for text in cleaned_emails]
import gensim
# Definieer het LDA-model
ldamodel = gensim.models.ldamodel.LdaModel(corpus, num_topics = 3,
id2word=dictionary, passes=15)
# Print de drie topics met topwoorden
topics = ldamodel.print_topics(num_words=4)
for topic in topics:
print(topic)
(0, 0.029*"email" + 0.016*"send" + 0.016*"results" + 0.016*"invoice")
(1, 0.026*"price" + 0.026*"work" + 0.026*"management" + 0.026*"sell")
(2, 0.029*"distribute" + 0.029*"contact" + 0.016*"supply" + 0.016*"fast")
Fraudedetectie in Python