Dağılım ölçüleri

R ile İstatistiğe Giriş

Maggie Matsui

Content Developer, DataCamp

Dağılım nedir?

İki histogram: biri dar ve birkaç değeri kapsıyor, diğeri geniş ve daha çok değeri kapsıyor.

R ile İstatistiğe Giriş

Varyans

Her veri noktasının ortalamaya ortalama uzaklığı Ortada ortalamayı gösteren siyah çizgi bulunan 7 veri noktalı bir nokta grafiği.

R ile İstatistiğe Giriş

Varyansın hesaplanması

Ortada ortalamayı gösteren siyah çizgi bulunan 7 veri noktalı bir nokta grafiği. Her nokta ile orta çizgi arasında oklar var.

dists <- msleep$sleep_total - mean(msleep$sleep_total)
dists
1.66626506  6.56626506 ... -4.13373494  2.06626506 -0.63373494
R ile İstatistiğe Giriş

Varyansın hesaplanması

squared_dists <- (dists)^2
2.776439251 43.115836841 ... 17.087764552  4.269451299  0.401619974
sum_sq_dists <- sum(squared_dists)
sum_sq_dists
1624.066
R ile İstatistiğe Giriş

Varyansın hesaplanması

sum_sq_dists/82
19.80568
var(msleep$sleep_total)
19.80568
R ile İstatistiğe Giriş

Standart sapma

sqrt(var(msleep$sleep_total))
4.450357
# 'sleep_total'un standart sapması
sd(msleep$sleep_total)
4.450357
R ile İstatistiğe Giriş

Ortalama mutlak sapma

dists <- msleep$sleep_total - mean(msleep$sleep_total)
mean(abs(dists))
3.566701

 

Standart sapma vs. ortalama mutlak sapma

  • SS uzaklıkları kareler, uzun uzaklıkları daha fazla cezalandırır.
  • OMS her uzaklığı eşit cezalandırır.
  • Biri diğerinden daha iyi değildir, ancak SS OMS’den daha yaygındır.
R ile İstatistiğe Giriş

Çeyrekler

quantile(msleep$sleep_total)
   0%   25%   50%   75%  100% 
 1.90  7.85 10.10 13.75 19.90

İkinci çeyrek/50. yüzdelik = medyan

R ile İstatistiğe Giriş

Kutu grafikleri çeyrekleri kullanır

ggplot(msleep, aes(y = sleep_total)) +
  geom_boxplot()

Memelilerin toplam uyku süresinin kutu grafiği

R ile İstatistiğe Giriş

Kantil değerler

quantile(msleep$sleep_total, probs = c(0, 0.2, 0.4, 0.6, 0.8, 1))
   0%   20%   40%   60%   80%  100% 
 1.90  6.24  9.48 11.14 14.40 19.90

seq(from, to, by)

quantile(msleep$sleep_total, probs = seq(0, 1, 0.2))
   0%   20%   40%   60%   80%  100% 
 1.90  6.24  9.48 11.14 14.40 19.90
R ile İstatistiğe Giriş

Çeyrekler arası aralık (IQR)

Kutu grafiğindeki kutunun yüksekliği

iqr = quantile(msleep$sleep_total, 0.75) - quantile(msleep$sleep_total, 0.25)
iqr
75%
5.9
R ile İstatistiğe Giriş

Aykırı değerler

Aykırı değer: diğerlerinden belirgin biçimde farklı veri noktası

Belirgin farkı nasıl anlarız? Bir veri noktası aykırıysa:

  • $\text{data} < \text{Q1} - 1.5\times\text{IQR}$    veya
  • $\text{data} > \text{Q3} + 1.5\times\text{IQR}$
R ile İstatistiğe Giriş

Aykırı değer bulma

iqr <- quantile(msleep$bodywt, 0.75) - quantile(msleep$bodywt, 0.25)

lower_threshold <- quantile(msleep$bodywt, 0.25) - 1.5 * iqr upper_threshold<- quantile(msleep$bodywt, 0.75) + 1.5 * iqr
msleep %>% filter(bodywt < lower_threshold | bodywt > upper_threshold ) %>% 
  select(name, vore, sleep_total, bodywt)
# A tibble: 11 x 4
   name                 vore  sleep_total bodywt
   <chr>                <chr>       <dbl>  <dbl> 
 1 Cow                  herbi         4      600 
 2 Asian elephant       herbi         3.9   2547 
 3 Horse                herbi         2.9    521 
 ...
R ile İstatistiğe Giriş

Vamos praticar!

R ile İstatistiğe Giriş

Preparing Video For Download...