Cara menangani outlier yang ditemukan

Deteksi Anomali dengan Python

Bekhruz (Bex) Tuychiev

Kaggle Master, Data Science Content Creator

Aplikasi deteksi anomali

  • Kedokteran
  • Keamanan siber
  • Deteksi penipuan

Lakukan dua analisis: dengan dan tanpa outlier.

Deteksi Anomali dengan Python

Alasan kemunculan outlier

  • Kesalahan entri data:
    • Salah ketik
    • Kesalahan pengukuran
    • Kekeliruan manusia
    • Hapus kecuali diperbaiki
  • Kesalahan sampling:
    • Tidak dari distribusi target
    • Hapus
  • Alami:
    • Aneh secara alami tetapi berasal dari populasi
    • Jangan hapus
Deteksi Anomali dengan Python

Hapus berdasarkan magnitudo

  • Terlalu sedikit: konfirmasi lalu hapus
  • Terlalu banyak: mencurigakan — gunakan model lain:
    • GLM
    • Regresi kuantil
    • GEE
  • Membentuk klaster: lakukan analisis lebih dalam
Deteksi Anomali dengan Python

Trimming

# Calculate the percentiles
percentile_first = google['Volume'].quantile(0.01)
percentile_99th = google['Volume'].quantile(0.99)


# Trim google['Volume'] = google['Volume'].clip(percentile_first, percentile_99th)
Deteksi Anomali dengan Python

Penggantian

google.replace(0, 100, inplace=True)
Deteksi Anomali dengan Python

Ayo berlatih!

Deteksi Anomali dengan Python

Preparing Video For Download...