Menandai kecurangan berdasarkan topik

Deteksi Kecurangan di Python

Charlotte Werger

Data Scientist

Menggunakan hasil model LDA untuk deteksi kecurangan

  1. Adakah topik mencurigakan? (tanpa label)
  2. Apakah topik pada kasus curang dan bukan curang mirip? (dengan label)
  3. Apakah kasus curang lebih terkait dengan topik tertentu? (dengan label)
Deteksi Kecurangan di Python

Untuk memahami topik, perlu visualisasi

import pyLDAvis.gensim
lda_display = pyLDAvis.gensim.prepare(ldamodel, corpus, 
                         dictionary, sort_topics=False)
pyLDAvis.display(lda_display)
Deteksi Kecurangan di Python

Meninjau perbedaan antar topik

Deteksi Kecurangan di Python

Tetapkan topik ke data asli Anda

def get_topic_details(ldamodel, corpus):
    topic_details_df = pd.DataFrame()
    for i, row in enumerate(ldamodel[corpus]):
        row = sorted(row, key=lambda x: (x[1]), reverse=True)
        for j, (topic_num, prop_topic) in enumerate(row):
            if j == 0:  # => dominant topic
                wp = ldamodel.show_topic(topic_num)
                topic_details_df = topic_details_df.append(pd.Series([topic_num, prop_topic]), 
                                                                      ignore_index=True)
    topic_details_df.columns = ['Dominant_Topic', '% Score']
    return topic_details_df
Deteksi Kecurangan di Python

Tetapkan topik ke data asli Anda

contents = pd.DataFrame({'Original text':text_clean})
topic_details = pd.concat([get_topic_details(ldamodel,
                           corpus), contents], axis=1)
topic_details.head()
    Dominant_Topic    % Score     Original text
0    0.0              0.989108    [investools, advisory, free, ...
1    0.0              0.993513    [forwarded, richard, b, ...
2    1.0              0.964858    [hey, wearing, target, purple, ...
3    0.0              0.989241    [leslie, milosevich, santa, clara, ...
Deteksi Kecurangan di Python

Ayo berlatih!

Deteksi Kecurangan di Python

Preparing Video For Download...