Introdução à estatística em Python
Maggie Matsui
Content Developer, DataCamp
$$r = 0.18$$
O que vemos:
O que o coeficiente de correlação vê:
A correlação não deve ser usada às cegas
df['x'].corr(df['y'])
0.081094
Sempre visualize seus dados
print(msleep)
name genus vore order ... sleep_cycle awake brainwt bodywt
1 Cheetah Acinonyx carni Carnivora ... NaN 11.9 NaN 50.000
2 Owl monkey Aotus omni Primates ... NaN 7.0 0.01550 0.480
3 Mountain beaver Aplodontia herbi Rodentia ... NaN 9.6 NaN 1.350
4 Greater short-ta... Blarina omni Soricomorpha ... 0.133333 9.1 0.00029 0.019
5 Cow Bos herbi Artiodactyla ... 0.666667 20.0 0.42300 600.000
.. ... ... ... ... ... ... ... ... ...
79 Tree shrew Tupaia omni Scandentia ... 0.233333 15.1 0.00250 0.104
80 Bottle-nosed do... Tursiops carni Cetacea ... NaN 18.8 NaN 173.330
81 Genet Genetta carni Carnivora ... NaN 17.7 0.01750 2.000
82 Arctic fox Vulpes carni Carnivora ... NaN 11.5 0.04450 3.380
83 Red fox Vulpes carni Carnivora ... 0.350000 14.2 0.05040 4.230
msleep['bodywt'].corr(msleep['awake'])
0.3119801
msleep['log_bodywt'] = np.log(msleep['bodywt'])
sns.lmplot(x='log_bodywt', y='awake', data=msleep, ci=None) plt.show()
msleep['log_bodywt'].corr(msleep['awake'])
0.5687943
![Gráfico de dispersão de log bodywt vs awake] (https://assets.datacamp.com/production/repositories/5786/datasets/233f47f84c9dabdff513e8e3871ab0f182fa0220/log_bodywt_vs_awake.png = 80)
log(x)
)sqrt(x)
)Transformação recíproca (1 / x
)
Combinações desses itens, como:
log(x)
e log(y)
sqrt(x)
e 1 / y
x
estar correlacionado com y
não significa que x
causa y
Introdução à estatística em Python