Merkez ölçüleri

Python ile İstatistiğe Giriş

Maggie Matsui

Content Developer, DataCamp

Memeli uyku verisi

print(msleep)
                 name       genus   vore         order  ... sleep_cycle  awake  brainwt   bodywt
1             Cheetah    Acinonyx  carni     Carnivora  ...         NaN   11.9      NaN   50.000
2          Owl monkey       Aotus   omni      Primates  ...         NaN    7.0  0.01550    0.480
3     Mountain beaver  Aplodontia  herbi      Rodentia  ...         NaN    9.6      NaN    1.350
4 Greater short-ta...     Blarina   omni  Soricomorpha  ...    0.133333    9.1  0.00029    0.019
5                 Cow         Bos  herbi  Artiodactyla  ...    0.666667   20.0  0.42300  600.000
..                ...         ...    ...           ...  ...         ...    ...      ...      ...
79         Tree shrew      Tupaia   omni    Scandentia  ...    0.233333   15.1  0.00250    0.104
80 Bottle-nosed do...    Tursiops  carni       Cetacea  ...         NaN   18.8      NaN  173.330
81              Genet     Genetta  carni     Carnivora  ...         NaN   17.7  0.01750    2.000
82         Arctic fox      Vulpes  carni     Carnivora  ...         NaN   11.5  0.04450    3.380
83            Red fox      Vulpes  carni     Carnivora  ...    0.350000   14.2  0.05040    4.230
Python ile İstatistiğe Giriş

Histogramlar

msleep_hist.png

Python ile İstatistiğe Giriş

Bu veri setindeki memeliler tipik olarak ne kadar uyur?

Tipik değer nedir?

Verinin merkezi nerede?

  • Ortalama
  • Medyan
  • Mod

Screen Shot 2020-07-02 at 11.01.16 AM.png

Python ile İstatistiğe Giriş

Merkez ölçüleri: ortalama

                  name  sleep_total
1              Cheetah         12.1
2           Owl monkey         17.0
3      Mountain beaver         14.4
4   Greater short-t...         14.9
5                  Cow          4.0
..                 ...          ...

$\text{Ortalama uyku süresi}=$

$$\frac{12.1 + 17.0 + 14.4 + 14.9 + ...}{83} = 10.43$$

import numpy as np
np.mean(msleep['sleep_total'])
10.43373
Python ile İstatistiğe Giriş

Merkez ölçüleri: medyan

msleep['sleep_total'].sort_values()
29     1.9
30     2.7
22     2.9
9      3.0
23     3.1
      ... 
19    18.0
61    18.1
36    19.4
21    19.7
42    19.9
msleep['sleep_total'].sort_values().iloc[41]
10.1

 

np.median(msleep['sleep_total'])
10.1
Python ile İstatistiğe Giriş

Merkez ölçüleri: mod

En sık görülen değer

msleep['sleep_total'].value_counts()
12.5    4
10.1    3
14.9    2
11.0    2
8.4     2
...
14.3    1
17.0    1
Name: sleep_total, Length: 65, dtype: int64
msleep['vore'].value_counts()
herbi      32
omni       20
carni      19
insecti     5
Name: vore, dtype: int64
import statistics
statistics.mode(msleep['vore'])
'herbi'
Python ile İstatistiğe Giriş

Aykırı değer ekleme

# 'vore' değeri 'insecti' olan satırları seç
msleep[msleep['vore'] == 'insecti']
                     name         genus     vore         order  sleep_total
22          Big brown bat     Eptesicus  insecti    Chiroptera         19.7
43       Little brown bat        Myotis  insecti    Chiroptera         19.9
62        Giant armadillo    Priodontes  insecti     Cingulata         18.1
67  Eastern american mole      Scalopus  insecti  Soricomorpha          8.4
Python ile İstatistiğe Giriş

Aykırı değer ekleme

msleep[msleep['vore'] == "insecti"]['sleep_total'].agg([np.mean, np.median])
mean      16.53
median    18.9
Name: sleep_total, dtype: float64
Python ile İstatistiğe Giriş

Aykırı değer ekleme

msleep[msleep['vore'] == 'insecti']
                     name         genus     vore         order  sleep_total
22          Big brown bat     Eptesicus  insecti    Chiroptera         19.7
43       Little brown bat        Myotis  insecti    Chiroptera         19.9
62        Giant armadillo    Priodontes  insecti     Cingulata         18.1
67  Eastern american mole      Scalopus  insecti  Soricomorpha          8.4

84 Mystery insectivore ... insecti ... 0.0
Python ile İstatistiğe Giriş

Aykırı değer ekleme

msleep[msleep['vore'] == "insecti"]['sleep_total'].agg([np.mean, np.median])
mean      13.22
median    18.1
Name: sleep_total, dtype: float64

Ortalama: 16.5 → 13.2

Medyan: 18.9 → 18.1

Python ile İstatistiğe Giriş

Hangi ölçü kullanılmalı?

# matplotlib.pyplot'u plt kısaltmasıyla içe aktar
import matplotlib.pyplot as plt

# Değerlerin histogramı
data['values'].hist()

# Grafiği göster
plt.show()

simetrik veri histogramı

Python ile İstatistiğe Giriş

Çarpıklık

                                        Sol çarpık

Solda az, sağda artan değerli veri histogramı.

                                        Sağ çarpık

Solda çok, sağda azalan değerli veri histogramı.

Python ile İstatistiğe Giriş

Hangi ölçü kullanılmalı?

Solda az, sağda artan değerli veri histogramı.

Solda çok, sağda azalan değerli veri histogramı.

Python ile İstatistiğe Giriş

Hadi pratik yapalım!

Python ile İstatistiğe Giriş

Preparing Video For Download...