Medidas de dispersão

Introdução à estatística em Python

Maggie Matsui

Content Developer, DataCamp

O que é dispersão?

Dois histogramas: um estreito, com dados que abrangem apenas alguns valores, e outro mais amplo, com dados que abrangem mais valores

Introdução à estatística em Python

Variância

Distância média de cada ponto de dados para a média dos dados

Um gráfico de pontos de 7 pontos de dados com uma linha vermelha no meio representando a média.

Introdução à estatística em Python

Variância

Distância média de cada ponto de dados para a média dos dados

Um gráfico de pontos de 7 pontos de dados com uma linha vermelha no meio representando a média. As setas são desenhadas entre cada ponto e a linha média..

Introdução à estatística em Python

Cálculo da variância

1. Subtraia a média de cada ponto de dados

dists = msleep['sleep_total'] - 
        np.mean(msleep['sleep_total'])
print(dists)
0     1.666265
1     6.566265
2     3.966265
3     4.466265
4    -6.433735
      ...

2. Eleve cada distância ao quadrado

sq_dists = dists ** 2
print(sq_dists)
0      2.776439
1     43.115837
2     15.731259
3     19.947524
4     41.392945
      ...
Introdução à estatística em Python

Cálculo da variância

3. Some as distâncias ao quadrado

sum_sq_dists = np.sum(sq_dists)
print(sum_sq_dists)
1624.065542

4. Divida pelo número de pontos de dados - 1

variance = sum_sq_dists / (83 - 1)
print(variance)
19.805677

Use np.var()

np.var(msleep['sleep_total'], ddof=1)
19.805677

Sem ddof=1, a variância da população é calculada em vez da variância da amostra:

np.var(msleep['sleep_total'])
19.567055
Introdução à estatística em Python

Desvio padrão

np.sqrt(np.var(msleep['sleep_total'], ddof=1))
4.450357
np.std(msleep['sleep_total'], ddof=1)
4.450357
Introdução à estatística em Python

Desvio médio absoluto

dists = msleep['sleep_total'] - np.mean(msleep['sleep_total'])

np.mean(np.abs(dists))
3.566701

Desvio padrão vs. desvio médio absoluto

  • O desvio padrão eleva as distâncias ao quadrado, penalizando distâncias longas mais do que curtas.
  • O desvio médio absoluto penaliza as distâncias igualmente.
  • Um não é melhor do que o outro, mas o DP é mais comum do que o DMA.
Introdução à estatística em Python

Quantis

np.quantile(msleep['sleep_total'], 0.5)
10.1

$$

                        0,5 quantil = mediana

Quartis:

np.quantile(msleep['sleep_total'], [0, 0.25, 0.5, 0.75, 1])
array([ 1.9 ,  7.85, 10.1 , 13.75, 19.9 ])
Introdução à estatística em Python

Boxplots usam quartis

import matplotlib.pyplot as plt
plt.boxplot(msleep['sleep_total'])
plt.show()

sleep_total boxplot.png

Introdução à estatística em Python

Quantis usando np.linspace()

np.quantile(msleep['sleep_total'], [0, 0.2, 0.4, 0.6, 0.8, 1])
array([ 1.9 ,  6.24,  9.48, 11.14, 14.4 , 19.9 ])

 

np.linspace(start, stop, num)

np.quantile(msleep['sleep_total'], np.linspace(0, 1, 5))
array([ 1.9 ,  7.85, 10.1 , 13.75, 19.9 ])
Introdução à estatística em Python

Intervalo interquartil (IQR)

Altura da caixa em um boxplot

np.quantile(msleep['sleep_total'], 0.75) - np.quantile(msleep['sleep_total'], 0.25)
5.9
from scipy.stats import iqr
iqr(msleep['sleep_total'])
5.9
Introdução à estatística em Python

Discrepâncias

Discrepância: ponto de dados substancialmente diferente dos demais

Como sabemos o que é uma diferença substancial? Um ponto de dados é discrepante se:

  • $\text{data} < \text{Q1} - 1.5\times\text{IQR}$    ou
  • $\text{data} > \text{Q3} + 1.5\times\text{IQR}$
Introdução à estatística em Python

Encontrar discrepâncias

from scipy.stats import iqr
iqr = iqr(msleep['bodywt'])

lower_threshold = np.quantile(msleep['bodywt'], 0.25) - 1.5 * iqr upper_threshold = np.quantile(msleep['bodywt'], 0.75) + 1.5 * iqr
msleep[(msleep['bodywt'] < lower_threshold) | (msleep['bodywt'] > upper_threshold)]
                    name   vore  sleep_total    bodywt
4                    Cow  herbi          4.0   600.000
20        Asian elephant  herbi          3.9  2547.000
22                 Horse  herbi          2.9   521.000
...
Introdução à estatística em Python

Tudo de uma vez

msleep['bodywt'].describe()
count      83.000000
mean      166.136349
std       786.839732
min         0.005000
25%         0.174000
50%         1.670000
75%        41.750000
max      6654.000000
Name: bodywt, dtype: float64
Introdução à estatística em Python

Vamos praticar!

Introdução à estatística em Python

Preparing Video For Download...