Menggunakan data teks

Deteksi Kecurangan di Python

Charlotte Werger

Data Scientist

Anda sering menjumpai data teks saat deteksi kecurangan

Jenis data teks yang berguna:

  1. Email dari karyawan dan/atau klien
  2. Deskripsi transaksi
  3. Catatan karyawan
  4. Kotak deskripsi pada formulir klaim asuransi
  5. Rekaman percakapan telepon
  6. ...
Deteksi Kecurangan di Python

Teknik text mining untuk deteksi kecurangan

  1. Pencarian kata
  2. Analisis sentimen
  3. Frekuensi kata dan analisis topik
  4. Gaya
Deteksi Kecurangan di Python

Pencarian kata untuk deteksi kecurangan

Menandai kata mencurigakan:

  1. Sederhana, langsung, dan mudah dijelaskan
  2. Hasil kecocokan bisa jadi filter di atas model pembelajaran mesin
  3. Hasil kecocokan bisa jadi fitur dalam model pembelajaran mesin

Deteksi Kecurangan di Python

Hitung kata untuk menandai kecurangan dengan pandas

# Using a string operator to find words
df['email_body'].str.contains('money laundering')

# Select data that matches df.loc[df['email_body'].str.contains('money laundering', na=False)]
# Create a list of words to search for list_of_words = ['police', 'money laundering'] df.loc[df['email_body'].str.contains('|'.join(list_of_words) , na=False)]
# Create a fraud flag df['flag'] = np.where((df['email_body'].str.contains('|'.join (list_of_words)) == True), 1, 0)
Deteksi Kecurangan di Python

Ayo berlatih!

Deteksi Kecurangan di Python

Preparing Video For Download...