Yayılım ölçüleri

Python ile İstatistiğe Giriş

Maggie Matsui

Content Developer, DataCamp

Yayılım nedir?

İki histogram: biri dar ve az sayıda değeri kapsıyor, diğeri geniş ve daha çok değeri kapsıyor.

Python ile İstatistiğe Giriş

Varyans

Her veri noktasının ortalamaya olan ortalama uzaklığı

Ortada ortalamayı gösteren kırmızı çizgiyle 7 veri noktası nokta grafiği.

Python ile İstatistiğe Giriş

Varyans

Her veri noktasının ortalamaya olan ortalama uzaklığı

Ortada ortalamayı gösteren kırmızı çizgiyle 7 veri noktası nokta grafiği. Oklar her nokta ile ortalama çizgisi arasına çizilmiştir.

Python ile İstatistiğe Giriş

Varyansın hesaplanması

1. Her veri noktasından ortalamayı çıkarın

dists = msleep['sleep_total'] - 
        np.mean(msleep['sleep_total'])
print(dists)
0     1.666265
1     6.566265
2     3.966265
3     4.466265
4    -6.433735
      ...

2. Her uzaklığı kareleyin

sq_dists = dists ** 2
print(sq_dists)
0      2.776439
1     43.115837
2     15.731259
3     19.947524
4     41.392945
      ...
Python ile İstatistiğe Giriş

Varyansın hesaplanması

3. Kareli uzaklıkların toplamı

sum_sq_dists = np.sum(sq_dists)
print(sum_sq_dists)
1624.065542

4. Veri noktası sayısı - 1 ile bölün

variance = sum_sq_dists / (83 - 1)
print(variance)
19.805677

np.var() kullanın

np.var(msleep['sleep_total'], ddof=1)
19.805677

ddof=1 olmadan, örnek varyansı yerine anakütle varyansı hesaplanır:

np.var(msleep['sleep_total'])
19.567055
Python ile İstatistiğe Giriş

Standart sapma

np.sqrt(np.var(msleep['sleep_total'], ddof=1))
4.450357
np.std(msleep['sleep_total'], ddof=1)
4.450357
Python ile İstatistiğe Giriş

Ortalama mutlak sapma

dists = msleep['sleep_total'] - np.mean(msleep['sleep_total'])

np.mean(np.abs(dists))
3.566701

Standart sapma vs. ortalama mutlak sapma

  • Standart sapma uzaklıkları kareler; uzun uzaklıkları kısa olanlara göre daha fazla cezalandırır.
  • Ortalama mutlak sapma her uzaklığı eşit cezalandırır.
  • Biri diğerinden daha iyi değildir; ancak SS, OMS'den daha yaygındır.
Python ile İstatistiğe Giriş

Kantiller

np.quantile(msleep['sleep_total'], 0.5)
10.1

$$

                        0.5 kantil = medyan

Çeyrekler:

np.quantile(msleep['sleep_total'], [0, 0.25, 0.5, 0.75, 1])
array([ 1.9 ,  7.85, 10.1 , 13.75, 19.9 ])
Python ile İstatistiğe Giriş

Kutu grafikleri çeyrekleri kullanır

import matplotlib.pyplot as plt
plt.boxplot(msleep['sleep_total'])
plt.show()

sleep_total boxplot.png

Python ile İstatistiğe Giriş

np.linspace() ile kantiller

np.quantile(msleep['sleep_total'], [0, 0.2, 0.4, 0.6, 0.8, 1])
array([ 1.9 ,  6.24,  9.48, 11.14, 14.4 , 19.9 ])

 

np.linspace(start, stop, num)

np.quantile(msleep['sleep_total'], np.linspace(0, 1, 5))
array([ 1.9 ,  7.85, 10.1 , 13.75, 19.9 ])
Python ile İstatistiğe Giriş

Çeyrekler arası aralık (IQR)

Kutu grafikte kutunun yüksekliği

np.quantile(msleep['sleep_total'], 0.75) - np.quantile(msleep['sleep_total'], 0.25)
5.9
from scipy.stats import iqr
iqr(msleep['sleep_total'])
5.9
Python ile İstatistiğe Giriş

Aykırı değerler

Aykırı değer: diğerlerinden belirgin biçimde farklı veri noktası

Belirgin farkı nasıl anlarız? Bir veri noktası şu durumlarda aykırıdır:

  • $\text{veri} < \text{Q1} - 1.5\times\text{IQR}$    veya
  • $\text{veri} > \text{Q3} + 1.5\times\text{IQR}$
Python ile İstatistiğe Giriş

Aykırı değer bulma

from scipy.stats import iqr
iqr = iqr(msleep['bodywt'])

lower_threshold = np.quantile(msleep['bodywt'], 0.25) - 1.5 * iqr upper_threshold = np.quantile(msleep['bodywt'], 0.75) + 1.5 * iqr
msleep[(msleep['bodywt'] < lower_threshold) | (msleep['bodywt'] > upper_threshold)]
                    name   vore  sleep_total    bodywt
4                    Cow  herbi          4.0   600.000
20        Asian elephant  herbi          3.9  2547.000
22                 Horse  herbi          2.9   521.000
...
Python ile İstatistiğe Giriş

Tek seferde hepsi

msleep['bodywt'].describe()
count      83.000000
mean      166.136349
std       786.839732
min         0.005000
25%         0.174000
50%         1.670000
75%        41.750000
max      6654.000000
Name: bodywt, dtype: float64
Python ile İstatistiğe Giriş

Vamos praticar!

Python ile İstatistiğe Giriş

Preparing Video For Download...