Veri kalitesi ve temizleme

SAS Kullananlar İçin R

Melinda Higgins, PhD

Research Professor/Senior Biostatistician Emory University

Dağılımları kontrol et

# davismod ile devam et
davismod %>%
  head(5)
  sex weight height repwt repht      bmi diffht difflow          bmicat
1   M     77    182    77   180 23.24598     -2   FALSE 1. underwt/norm
2   F     58    161    51   159 22.37568     -2   FALSE 1. underwt/norm
3   F     53    161    54   158 20.44674     -3    TRUE 1. underwt/norm
4   M     68    177    70   175 21.70513     -2   FALSE 1. underwt/norm
5   F     59    157    59   155 23.93606     -2   FALSE 1. underwt/norm
SAS Kullananlar İçin R

Dağılımları kontrol et

# bmi için özet istatistikler; min, max, medyanı kontrol et
davismod %>%
  pull(bmi) %>%
  summary()
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max.
  15.82   20.23   21.84   24.70   23.94  510.93

Max. > 500’ye dikkat edin

SAS Kullananlar İçin R

Dağılımları görselleştir

# geom_dotplot() ile bmi nokta grafiği çiz
ggplot(davismod, aes(bmi)) +
  geom_dotplot()

bmi nokta grafiği

SAS Kullananlar İçin R

Aykırı değerleri bul

# Veriyi arrange() ile sırala, tail() ile son 6 satırı gör
davismod %>%
  arrange(bmi) %>%
  tail()
    sex weight height repwt repht       bmi diffht difflow    bmicat
195   M     89    173    86   173  29.73704      0   FALSE 2. overwt
196   M    102    185   107   185  29.80278      0   FALSE 2. overwt
197   M    103    185   101   182  30.09496     -3    TRUE  3. obese
198   M    101    183   100   180  30.15916     -3    TRUE  3. obese
199   M    119    180   124   178  36.72840     -2   FALSE  3. obese
200   F    166     57    56   163 510.92644    106   FALSE  3. obese
SAS Kullananlar İçin R

Varsayım görselleştirme: weight <= height

# y=x referans çizgili saçılım grafiği
ggplot(davismod,
       aes(weight, height)) +
  geom_point() +
  geom_abline(intercept=0, slope=1)

davismod için ağırlığa göre boy saçılım grafiği

SAS Kullananlar İçin R

Hatalı vakaları filtrele

# dplyr::filter() kullan, bmi < 100 olanları tut
daviskeep <- davismod %>%
  filter(bmi < 100)

# Son 6 satırı göster
daviskeep %>%
  arrange(bmi) %>%
  tail()
    sex weight height repwt repht      bmi diffht difflow    bmicat
194   F     75    162    75   158 28.57796     -4    TRUE 2. overwt
195   M     89    173    86   173 29.73704      0   FALSE 2. overwt
196   M    102    185   107   185 29.80278      0   FALSE 2. overwt
197   M    103    185   101   182 30.09496     -3    TRUE  3. obese
198   M    101    183   100   180 30.15916     -3    TRUE  3. obese
199   M    119    180   124   178 36.72840     -2   FALSE  3. obese
SAS Kullananlar İçin R

Düzeltilmiş bmi’yı görselleştir

# bmi için nokta grafiği çiz
ggplot(daviskeep, aes(bmi)) +
  geom_dotplot()

daviskeep için bmi nokta grafiği

SAS Kullananlar İçin R

Abalone veri setinde son temizlik

  • Abalone veri setinin varsayımlarını kontrol et
  • Varsayımları bozan vakaları çıkar
  • Analiz ve modeller için veri setini sonlandır

VARsayımlar:

  • Tüm ölçümler > 0 olmalı
  • length kabuğun en uzun boyutudur
  • height ve diameter < length
  • wholeWeight toplam ağırlıktır
  • Diğer ağırlıklar < wholeWeight

abalone kabuğu resmi

SAS Kullananlar İçin R

Abalone veri setini inceleyip temizleyelim

SAS Kullananlar İçin R

Preparing Video For Download...