Datakwaliteit en opschonen

R voor SAS-gebruikers

Melinda Higgins, PhD

Research Professor/Senior Biostatistician Emory University

Verdelingen controleren

# Ga verder met davismod
davismod %>%
  head(5)
  sex weight height repwt repht      bmi diffht difflow          bmicat
1   M     77    182    77   180 23.24598     -2   FALSE 1. underwt/norm
2   F     58    161    51   159 22.37568     -2   FALSE 1. underwt/norm
3   F     53    161    54   158 20.44674     -3    TRUE 1. underwt/norm
4   M     68    177    70   175 21.70513     -2   FALSE 1. underwt/norm
5   F     59    157    59   155 23.93606     -2   FALSE 1. underwt/norm
R voor SAS-gebruikers

Verdelingen controleren

# Samenvatting voor bmi, check min, max, mediaan
davismod %>%
  pull(bmi) %>%
  summary()
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max.
  15.82   20.23   21.84   24.70   23.94  510.93

Let op: Max. > 500

R voor SAS-gebruikers

Verdelingen visualiseren

# Maak bmi-dotplot met geom_dotplot()
ggplot(davismod, aes(bmi)) +
  geom_dotplot()

dotplot van bmi

R voor SAS-gebruikers

De uitschieters vinden

# Sorteer data met arrange(), bekijk laatste 6 rijen met tail()
davismod %>%
  arrange(bmi) %>%
  tail()
    sex weight height repwt repht       bmi diffht difflow    bmicat
195   M     89    173    86   173  29.73704      0   FALSE 2. overwt
196   M    102    185   107   185  29.80278      0   FALSE 2. overwt
197   M    103    185   101   182  30.09496     -3    TRUE  3. obese
198   M    101    183   100   180  30.15916     -3    TRUE  3. obese
199   M    119    180   124   178  36.72840     -2   FALSE  3. obese
200   F    166     57    56   163 510.92644    106   FALSE  3. obese
R voor SAS-gebruikers

Aanname visualiseren: gewicht <= lengte

# Scatterplot met y=x-referentielijn
ggplot(davismod,
       aes(weight, height)) +
  geom_point() +
  geom_abline(intercept=0, slope=1)

spreidingsdiagram lengte per gewicht voor davismod

R voor SAS-gebruikers

Cases met fouten filteren

# Gebruik filter() uit dplyr, behoud cases met bmi < 100
daviskeep <- davismod %>%
  filter(bmi < 100)

# Bekijk laatste 6 rijen
daviskeep %>%
  arrange(bmi) %>%
  tail()
    sex weight height repwt repht      bmi diffht difflow    bmicat
194   F     75    162    75   158 28.57796     -4    TRUE 2. overwt
195   M     89    173    86   173 29.73704      0   FALSE 2. overwt
196   M    102    185   107   185 29.80278      0   FALSE 2. overwt
197   M    103    185   101   182 30.09496     -3    TRUE  3. obese
198   M    101    183   100   180 30.15916     -3    TRUE  3. obese
199   M    119    180   124   178 36.72840     -2   FALSE  3. obese
R voor SAS-gebruikers

Gecorrigeerde bmi visualiseren

# Maak dotplot van bmi
ggplot(daviskeep, aes(bmi)) +
  geom_dotplot()

dotplot van bmi uit daviskeep

R voor SAS-gebruikers

Laatste opschoning van abalone-dataset

  • Controleer de aannames van de abalone-dataset
  • Verwijder cases die aannames schenden
  • Finaliseer dataset voor analyse en modellen

AANNAMES:

  • Alle metingen > 0
  • length is de langste schelplengte
  • height en diameter < length
  • wholeWeight is het totaalgewicht
  • Andere gewichten < wholeWeight

foto van abaloneschelp

R voor SAS-gebruikers

Laten we de abalone-dataset verkennen en opschonen

R voor SAS-gebruikers

Preparing Video For Download...