Ukuran sebaran

Pengantar Statistika di Python

Maggie Matsui

Content Developer, DataCamp

Apa itu sebaran?

Dua histogram: satu sempit dengan data mencakup sedikit nilai, satu lebih lebar dengan data mencakup lebih banyak nilai.

Pengantar Statistika di Python

Varian

Rata-rata jarak tiap titik data ke mean data

Plot titik 7 data dengan garis merah di tengah sebagai mean.

Pengantar Statistika di Python

Varian

Rata-rata jarak tiap titik data ke mean data

Plot titik 7 data dengan garis merah di tengah sebagai mean. Panah digambar antara tiap titik dan garis mean.

Pengantar Statistika di Python

Menghitung varian

1. Kurangi mean dari tiap titik data

dists = msleep['sleep_total'] - 
        np.mean(msleep['sleep_total'])
print(dists)
0     1.666265
1     6.566265
2     3.966265
3     4.466265
4    -6.433735
      ...

2. Kuadratkan tiap jarak

sq_dists = dists ** 2
print(sq_dists)
0      2.776439
1     43.115837
2     15.731259
3     19.947524
4     41.392945
      ...
Pengantar Statistika di Python

Menghitung varian

3. Jumlahkan jarak kuadrat

sum_sq_dists = np.sum(sq_dists)
print(sum_sq_dists)
1624.065542

4. Bagi dengan jumlah data - 1

variance = sum_sq_dists / (83 - 1)
print(variance)
19.805677

Gunakan np.var()

np.var(msleep['sleep_total'], ddof=1)
19.805677

Tanpa ddof=1, yang dihitung adalah varian populasi bukan varian sampel:

np.var(msleep['sleep_total'])
19.567055
Pengantar Statistika di Python

Simpangan baku

np.sqrt(np.var(msleep['sleep_total'], ddof=1))
4.450357
np.std(msleep['sleep_total'], ddof=1)
4.450357
Pengantar Statistika di Python

Deviasi absolut rata-rata

dists = msleep['sleep_total'] - np.mean(msleep['sleep_total'])

np.mean(np.abs(dists))
3.566701

Simpangan baku vs. deviasi absolut rata-rata

  • Simpangan baku mengkuadratkan jarak, sehingga jarak besar lebih dihukum.
  • Deviasi absolut rata-rata menghukum semua jarak secara sama.
  • Tidak ada yang selalu lebih baik; namun SB lebih umum daripada MAD.
Pengantar Statistika di Python

Kuantil

np.quantile(msleep['sleep_total'], 0.5)
10.1

$$

                        Kuantil 0,5 = median

Kuartil:

np.quantile(msleep['sleep_total'], [0, 0.25, 0.5, 0.75, 1])
array([ 1.9 ,  7.85, 10.1 , 13.75, 19.9 ])
Pengantar Statistika di Python

Boxplot memakai kuartil

import matplotlib.pyplot as plt
plt.boxplot(msleep['sleep_total'])
plt.show()

boxplot sleep_total.png

Pengantar Statistika di Python

Kuantil dengan np.linspace()

np.quantile(msleep['sleep_total'], [0, 0.2, 0.4, 0.6, 0.8, 1])
array([ 1.9 ,  6.24,  9.48, 11.14, 14.4 , 19.9 ])

 

np.linspace(start, stop, num)

np.quantile(msleep['sleep_total'], np.linspace(0, 1, 5))
array([ 1.9 ,  7.85, 10.1 , 13.75, 19.9 ])
Pengantar Statistika di Python

Rentang antarkuartil (IQR)

Tinggi kotak pada boxplot

np.quantile(msleep['sleep_total'], 0.75) - np.quantile(msleep['sleep_total'], 0.25)
5.9
from scipy.stats import iqr
iqr(msleep['sleep_total'])
5.9
Pengantar Statistika di Python

Pencilan

Pencilan: titik data yang berbeda jauh dari lainnya

Bagaimana mengukur “berbeda jauh”? Suatu titik data adalah pencilan jika:

  • $\text{data} < \text{Q1} - 1.5\times\text{IQR}$    atau
  • $\text{data} > \text{Q3} + 1.5\times\text{IQR}$
Pengantar Statistika di Python

Menemukan pencilan

from scipy.stats import iqr
iqr = iqr(msleep['bodywt'])

lower_threshold = np.quantile(msleep['bodywt'], 0.25) - 1.5 * iqr upper_threshold = np.quantile(msleep['bodywt'], 0.75) + 1.5 * iqr
msleep[(msleep['bodywt'] < lower_threshold) | (msleep['bodywt'] > upper_threshold)]
                    name   vore  sleep_total    bodywt
4                    Cow  herbi          4.0   600.000
20        Asian elephant  herbi          3.9  2547.000
22                 Horse  herbi          2.9   521.000
...
Pengantar Statistika di Python

Sekali jalan

msleep['bodywt'].describe()
count      83.000000
mean      166.136349
std       786.839732
min         0.005000
25%         0.174000
50%         1.670000
75%        41.750000
max      6654.000000
Name: bodywt, dtype: float64
Pengantar Statistika di Python

Ayo berlatih!

Pengantar Statistika di Python

Preparing Video For Download...