Ringkasan hyperparameter Isolation Forest

Deteksi Anomali dengan Python

Bekhruz (Bex) Tuychiev

Kaggle Master, Data Science Content Creator

Hyperparameter terpenting

Hyperparameter yang paling memengaruhi IForest:

  • contamination
  • n_estimators
  • max_samples
  • max_features
Deteksi Anomali dengan Python

Apa itu contamination?

Cara IForest mengklasifikasikan titik data:

  1. Skor anomali mentah dihasilkan
  2. Tetapkan ambang contamination
  3. Persentase skor anomali tertinggi sebesar contamination dipilih sebagai outlier
Deteksi Anomali dengan Python

Mengatur contamination

from pyod.models.iforest import IForest


# Menerima nilai antara 0 dan 0.5 iforest = IForest(contamination=0.05)
Deteksi Anomali dengan Python

Apa itu n_estimators?

# Lebih banyak pohon untuk dataset lebih besar
iforest = IForest(n_estimators=1000)

iforest.fit(airbnb_df)
Deteksi Anomali dengan Python

max_samples dan max_features

iforest = IForest(n_estimators=200, max_samples=0.6, max_features=0.9)


iforest.fit(airbnb_df)
Deteksi Anomali dengan Python

Pertumbuhan pohon

  • iTree:
    • tumbuh secara acak
    • pemisah dipilih acak antara nilai min dan max fitur
    • tumbuh hingga:
      • semua titik terisolasi
      • kedalaman maksimum tercapai
Deteksi Anomali dengan Python

Kedalaman pohon maksimal

  • Sama dengan logaritma ukuran sampel
Deteksi Anomali dengan Python

Kelebihan IForest

  • Sangat efisien untuk dataset besar
  • Tidak butuh semua instance normal seperti algoritme lain
  • Tanpa asumsi statistik
  • Performa baik langsung pakai
Deteksi Anomali dengan Python

Tantangan deteksi outlier

  • Model pembelajaran terawasi bergantung pada metrik seperti RMSE atau log loss
  • Deteksi outlier adalah masalah pembelajaran tak terawasi
  • Klasifier outlier sebaiknya digabung dengan model terawasi
Deteksi Anomali dengan Python

Ayo berlatih!

Deteksi Anomali dengan Python

Preparing Video For Download...