Pemodelan topik pada kecurangan

Deteksi Kecurangan di Python

Charlotte Werger

Data Scientist

Pemodelan topik: temukan pola tersembunyi dalam teks

  1. Menemukan topik dalam data teks
  2. "Teks ini membahas apa"
  3. Secara konsep mirip pengelompokan data
  4. Bandingkan topik kasus fraud vs. non-fraud dan gunakan sebagai fitur atau penanda
  5. Atau, adakah topik tertentu yang mengarah ke fraud?
Deteksi Kecurangan di Python

Latent Dirichlet Allocation (LDA)

Dengan LDA Anda mendapatkan:

  1. Model "topik per item teks" (probabilitas)
  2. Model "kata per topik"

Membangun model topik Anda:

  1. Bersihkan data
  2. Buat bag-of-words dengan kamus dan korpus
  3. Masukkan kamus dan korpus ke model LDA
Deteksi Kecurangan di Python

Latent Dirichlet Allocation (LDA)

Deteksi Kecurangan di Python

Bag-of-words: kamus dan korpus

from gensim import corpora
# Create dictionary number of times a word appears
dictionary = corpora.Dictionary(cleaned_emails)
# Filter out (non)frequent words 
dictionary.filter_extremes(no_below=5, keep_n=50000)
# Create corpus
corpus = [dictionary.doc2bow(text) for text in cleaned_emails]
Deteksi Kecurangan di Python

Latent Dirichlet Allocation (LDA) dengan gensim

import gensim
# Define the LDA model
ldamodel = gensim.models.ldamodel.LdaModel(corpus, num_topics = 3, 
id2word=dictionary, passes=15)
# Print the three topics from the model with top words
topics = ldamodel.print_topics(num_words=4)
for topic in topics:
    print(topic)
(0, 0.029*"email" + 0.016*"send" + 0.016*"results" + 0.016*"invoice")
(1, 0.026*"price" + 0.026*"work" + 0.026*"management" + 0.026*"sell")
(2, 0.029*"distribute" + 0.029*"contact" + 0.016*"supply" + 0.016*"fast")
Deteksi Kecurangan di Python

Ayo berlatih!

Deteksi Kecurangan di Python

Preparing Video For Download...