Anomaliedetectie met windowfuncties

Tijdreeksanalyse in Tableau

Chris Hui

VP, Tracked

Standaarddeviatie vs. rolling standaarddeviatie

  • Standaarddeviatie meet de spreiding in een waardeset
    • Hoge standaarddeviatie = hoge variantie
    • Lage standaarddeviatie = lage variantie

Een boxplot die hoge vs. lage standaarddeviatie toont

  • Rolling standaarddeviatie, berekend op een venster, helpt variantie-inflatie in de tijd te zien

  • Groeiende variantie kan een anomalie aanduiden

Een afbeelding die laat zien hoe rolling standaarddeviatie toename in de tijd toont

Tijdreeksanalyse in Tableau

Standaarddeviatie en anomaliedetectie

  • Anomaliedetectie voor tijdreeksen volgt vaak de 68-95-99-regel

  • ~ 68% van alle waarden = 1 standaarddeviatie van het gemiddelde

  • 95% van alle waarden = 2 standaarddeviaties van het gemiddelde
  • ~ 99,7% van alle waarden = 3 standaarddeviaties van het gemiddelde
  • Elke waarde > 3 standaarddeviaties van het gemiddelde is een anomalie

Een normale verdeling die laat zien wanneer waarden als anomalie tellen volgens de 68-, 98- en 99-regel

Tijdreeksanalyse in Tableau

Bovenste en onderste regelgrenzen

  • Vooral gebruikt voor univariate tijdreeksen, niet multivariaat

  • Regelkaarten zijn een effectieve visual om de boven- en ondergrens van ‘toelaatbare’ waarden te tonen

  • Waarden buiten het populatiegemiddelde +- 3 standaarddeviaties zijn anomalieën

Tijdreeksanalyse in Tableau

Wat zijn Z-scores?

  • De Z-score is het aantal standaarddeviaties dat een datapunt boven of onder het gemiddelde ligt

  • Een positieve Z-score betekent boven het gemiddelde

  • Een negatieve Z-score betekent onder het gemiddelde

  • Los van standaarddeviatie, die afstand tussen datapunten meet

Een afbeelding met Z-scores versus standaarddeviatie

Tijdreeksanalyse in Tableau

Z-scores en anomaliedetectie

  • Z-scores van +-3 gelden als anomalieën, maar dit is contextafhankelijk

Een visual met Z-score-afkap van 1, met meerdere anomalieën

  • Hogere Z-scores leveren minder anomalieën op, afhankelijk van de gevoeligheid

Een visual met Z-score-afkap van 2, met zeer weinig anomalieën

Tijdreeksanalyse in Tableau

Laten we oefenen!

Tijdreeksanalyse in Tableau

Preparing Video For Download...