Misure di dispersione

Introduzione alla statistica in R

Maggie Matsui

Content Developer, DataCamp

Cos’è la dispersione?

Due istogrammi: uno stretto con dati su pochi valori, uno più largo con dati su più valori.

Varianza

Distanza media di ogni punto dalla media dei dati Un grafico a punti con 7 punti e una linea nera centrale che rappresenta la media.

Calcolare la varianza

Un grafico a punti con 7 punti e una linea nera centrale che rappresenta la media. Frecce tra ogni punto e la linea.

dists <- msleep$sleep_total - mean(msleep$sleep_total)
dists

1.66626506  6.56626506 ... -4.13373494  2.06626506 -0.63373494

Calcolare la varianza

squared_dists <- (dists)^2

2.776439251 43.115836841 ... 17.087764552  4.269451299  0.401619974

sum_sq_dists <- sum(squared_dists)
sum_sq_dists

1624.066

Calcolare la varianza

sum_sq_dists/82

19.80568

var(msleep$sleep_total)

19.80568

Deviazione standard

sqrt(var(msleep$sleep_total))

4.450357

# Deviazione standard di 'sleep_total'
sd(msleep$sleep_total)

4.450357

Deviazione media assoluta

dists <- msleep$sleep_total - mean(msleep$sleep_total)
mean(abs(dists))

3.566701

Deviazione standard vs. deviazione media assoluta

La DS eleva al quadrato le distanze, penalizzando di più quelle lunghe.
La MAD penalizza ogni distanza allo stesso modo.
Nessuna è “migliore”, ma la DS è più comune della MAD.

Quartili

quantile(msleep$sleep_total)

   0%   25%   50%   75%  100% 
 1.90  7.85 10.10 13.75 19.90

Secondo quartile/50° percentile = mediana

I boxplot usano i quartili

ggplot(msleep, aes(y = sleep_total)) +
  geom_boxplot()

Un boxplot del tempo totale di sonno dei mammiferi

Quantili

quantile(msleep$sleep_total, probs = c(0, 0.2, 0.4, 0.6, 0.8, 1))

   0%   20%   40%   60%   80%  100% 
 1.90  6.24  9.48 11.14 14.40 19.90

seq(from, to, by)

quantile(msleep$sleep_total, probs = seq(0, 1, 0.2))

   0%   20%   40%   60%   80%  100% 
 1.90  6.24  9.48 11.14 14.40 19.90

Intervallo interquartile (IQR)

Altezza della scatola in un boxplot

iqr = quantile(msleep$sleep_total, 0.75) - quantile(msleep$sleep_total, 0.25)
iqr

75%
5.9

Outlier

Outlier: punto dati molto diverso dagli altri

Come definire “molto diverso”? Un punto è un outlier se:

$\text{dato} < \text{Q1} - 1.5\times\text{IQR}$ oppure
$\text{dato} > \text{Q3} + 1.5\times\text{IQR}$

Trovare gli outlier

iqr <- quantile(msleep$bodywt, 0.75) - quantile(msleep$bodywt, 0.25)

lower_threshold <- quantile(msleep$bodywt, 0.25) - 1.5 * iqr
upper_threshold<- quantile(msleep$bodywt, 0.75) + 1.5 * iqr

msleep %>% filter(bodywt < lower_threshold | bodywt > upper_threshold ) %>% 
  select(name, vore, sleep_total, bodywt)

# A tibble: 11 x 4
   name                 vore  sleep_total bodywt
   <chr>                <chr>       <dbl>  <dbl> 
 1 Cow                  herbi         4      600 
 2 Asian elephant       herbi         3.9   2547 
 3 Horse                herbi         2.9    521 
 ...

¡Vamos a practicar!

Introduzione alla statistica in R