Isolation Forest hiperparametrelerine genel bakış

Python ile Anomali Tespiti

Bekhruz (Bex) Tuychiev

Kaggle Master, Data Science Content Creator

En önemli hiperparametreler

IForesti en çok etkileyen hiperparametreler:

  • contamination
  • n_estimators
  • max_samples
  • max_features
Python ile Anomali Tespiti

Contamination nedir?

IForest veri noktalarını nasıl sınıflandırır:

  1. Ham anomali skorları üretilir
  2. contamination adlı bir eşik belirlenir
  3. contamination ile belirtilen en yüksek yüzde anomali skoru aykırı olarak seçilir
Python ile Anomali Tespiti

Contamination ayarlama

from pyod.models.iforest import IForest


# 0 ile 0.5 arasında bir değer alır iforest = IForest(contamination=0.05)
Python ile Anomali Tespiti

n_estimators nedir?

# Daha büyük veri kümeleri için daha fazla ağaç
iforest = IForest(n_estimators=1000)

iforest.fit(airbnb_df)
Python ile Anomali Tespiti

max_samples ve max_features

iforest = IForest(n_estimators=200, max_samples=0.6, max_features=0.9)


iforest.fit(airbnb_df)
Python ile Anomali Tespiti

Ağaç büyümesi

  • iTree'ler:
    • rastgele büyür
    • bölme, özelliğin min ve max'ı arasında rastgele seçilir
    • şu koşula kadar büyür:
      • tüm noktalar izole edilir
      • azami derinliğe ulaşılır
Python ile Anomali Tespiti

Azami ağaç derinliği

  • Örneklem boyutunun logaritmasına eşittir
Python ile Anomali Tespiti

IForest avantajları

  • Büyük veri kümelerinde çok verimli
  • Diğer algoritmalar gibi tüm normal örnekleri gerektirmez
  • İstatistiksel varsayım yok
  • Kutudan çıkar çıkmaz iyi performans
Python ile Anomali Tespiti

Aykırı değer tespitinin zorlukları

  • Denetimli modeller RMSE veya log loss gibi metriklere dayanır
  • Aykırı değer tespiti denetimsiz bir problemdir
  • Aykırı sınıflandırıcılar denetimli modellerle birleştirilmelidir
Python ile Anomali Tespiti

Hadi pratik yapalım!

Python ile Anomali Tespiti

Preparing Video For Download...