Come gestire gli outlier trovati

Rilevamento delle anomalie in Python

Bekhruz (Bex) Tuychiev

Kaggle Master, Data Science Content Creator

Applicazioni del rilevamento di anomalie

  • Medicina
  • Cybersecurity
  • Rilevamento frodi

Esegui due analisi: con e senza outlier.

Rilevamento delle anomalie in Python

Perché compaiono gli outlier

  • Errori di inserimento dati:
    • Refusi
    • Errori di misurazione
    • Errori umani
    • Elimina se non corretti
  • Errori di campionamento:
    • Non dalla distribuzione target
    • Elimina
  • Naturali:
    • Insoliti ma dalla popolazione
    • Non eliminare
Rilevamento delle anomalie in Python

Eliminare in base alla magnitudine

  • Pochi: verifica ed elimina
  • Troppi: sospetto → usa modelli diversi:
    • GLM
    • Regressione quantilica
    • GEE
  • Formano un cluster: analisi più approfondita
Rilevamento delle anomalie in Python

Trimming

# Calculate the percentiles
percentile_first = google['Volume'].quantile(0.01)
percentile_99th = google['Volume'].quantile(0.99)


# Trim google['Volume'] = google['Volume'].clip(percentile_first, percentile_99th)
Rilevamento delle anomalie in Python

Sostituzione

google.replace(0, 100, inplace=True)
Rilevamento delle anomalie in Python

Passiamo alla pratica!

Rilevamento delle anomalie in Python

Preparing Video For Download...