Modelprestatie beoordelen

Intermediary Regression in R

Richie Cotton

Data Evangelist at DataCamp

Modelprestatie-metrics

  • Determinatiecoëfficiënt (R-squared): hoe goed de regressielijn past bij de waarnemingen.

    • Hoger is beter.
  • Residuele standaardfout (RSE): de typische grootte van de residuen.

    • Lager is beter.
Intermediary Regression in R

Determinatiecoëfficiënt ophalen

library(dplyr)
library(broom)
mdl_mass_vs_length %>% 
  glance() %>% 
  pull(r.squared)
0.8226
mdl_mass_vs_species %>% 
  glance() %>% 
  pull(r.squared)
0.7163
mdl_mass_vs_both %>% 
  glance() %>% 
  pull(r.squared)
0.9694
Intermediary Regression in R

Aangepaste determinatiecoëfficiënt

  • Meer verklarende variabelen verhoogt R^2.
  • Te veel verklarende variabelen leidt tot overfitting.
  • Aangepaste determinatiecoëfficiënt straft extra variabelen.
  • $\bar{R ^ 2} = 1 - (1 - R ^ 2) \frac{n_{obs} - 1}{n_{obs} - n_{var} - 1}$
  • Straf is merkbaar als R^2 klein is, of $n_{var}$ een groot deel van $n_{obs}$ is.
  • In glance() heet dit adj.r.squared.
Intermediary Regression in R

Aangepaste determinatiecoëfficiënt ophalen

library(dplyr)
library(broom)
mdl_mass_vs_length %>% 
  glance() %>% 
  select(r.squared, adj.r.squared)
  r.squared adj.r.squared
      <dbl>         <dbl>
1    0.8226        0.8212
mdl_mass_vs_species %>% 
  glance() %>% 
  select(r.squared, adj.r.squared)
  r.squared adj.r.squared
      <dbl>         <dbl>
1    0.7163        0.7072
mdl_mass_vs_both %>% 
  glance() %>% 
  select(r.squared, adj.r.squared)
  r.squared adj.r.squared
      <dbl>         <dbl>
1    0.9694        0.9682
Intermediary Regression in R

Residuele standaardfout ophalen

library(dplyr)
library(broom)
mdl_mass_vs_length %>% 
  glance() %>% 
  pull(sigma)
152.1
mdl_mass_vs_species %>% 
  glance() %>% 
  pull(sigma)
313.6
mdl_mass_vs_both %>% 
  glance() %>% 
  pull(sigma)
103.4
Intermediary Regression in R

Laten we oefenen!

Intermediary Regression in R

Preparing Video For Download...