Een trendlijn beoordelen

Statistische technieken in Tableau

Maarten Van den Broeck

Content Developer at DataCamp

Lineaire en logaritmische modellen

Lineair Lineair model van soortendiversiteit vs. afstand, met een trendlijn.

Logaritmisch Lineair model van soortendiversiteit vs. afstand, met een logaritmische lijn.

Statistische technieken in Tableau

Lineair model

Lineair model van soortendiversiteit vs. afstand, met een lineaire trendlijn.

  • $y=a*x+b$
  • Regressie: kwantificeer hoe $x$ $y$ laat veranderen
  • $a$ = helling, $b$ = intercept
  • $richness = a * distance + b$
  • $richness = 0.0038 * distance + 13.4$
Statistische technieken in Tableau

Residuen en $R^2$ van lineair model

Lineair model van soortendiversiteit vs. afstand, met een lineaire lijn.

  • Doel: afstand tussen observatie en trendlijn minimaliseren
  • Die afstand heet een residu
  • Determinatiecoëfficiënt $R^2$
  • Voor lineair model is $R^2$ het kwadraat van de correlatiecoëfficiënt
  • Tussen 0 (slecht) en 1 (best)
  • $R^2 = 0.33$
  • Verklaart $n\%$ van de variatie
Statistische technieken in Tableau

$R^2$ van het logaritmische model

Lineair model van soortendiversiteit vs. afstand, met een logaritmische lijn.

  • $R^2 = 0.59$
Statistische technieken in Tableau

Residuele standaardfout (RSE)

  • Gemiddeld verschil tussen observaties en trendlijn
  • Lineair model: RSE = 3.69 Lineair model van soortendiversiteit vs. afstand, met een lineaire lijn en betrouwbaarheidsintervallen.
  • Betrouwbaarheidsinterval is breder bij lage en hoge afstanden
  • Zelfde eenheid als op de y-as                                       
  • Logaritmisch model: RSE = 2.91 Lineair model van soortendiversiteit vs. afstand, met een logaritmische lijn en betrouwbaarheidsintervallen.
  • Betrouwbaarheidsinterval is alleen breder bij zeer grote afstanden
Statistische technieken in Tableau

p-waarde

Lineair model

  • p-waarde = 0.001
  • Kans van $\frac{1}{1000}$ dat er geen correlatie is
  • p-waarde < 0.05: model is statistisch significant, past goed bij de data

Logaritmisch model

  • p-waarde = 0.0001
  • Kans van $\frac{1}{10000}$ dat er geen correlatie is
  • Hoe lager de p-waarde, hoe beter, maar p-waarde is niet alles!
Statistische technieken in Tableau

Laten we oefenen!

Statistische technieken in Tableau

Preparing Video For Download...