Peringatan korelasi

Pengantar Statistika di Python

Maggie Matsui

Content Developer, DataCamp

Hubungan non-linear

plot sebar dengan hubungan kuadratik

$$r = 0.18$$

Pengantar Statistika di Python

Hubungan non-linear

Yang kita lihat:

plot sebar dengan garis tren kuadratik

Yang dilihat koefisien korelasi:

plot sebar dengan garis tren linear

Pengantar Statistika di Python

Korelasi hanya menangkap hubungan linear

Jangan gunakan korelasi secara membabi buta

df['x'].corr(df['y'])
0.081094

Selalu visualisasikan data Anda

plot sebar dengan hubungan kuadratik

Pengantar Statistika di Python

Data tidur mamalia

print(msleep)
                 name       genus   vore         order  ... sleep_cycle  awake  brainwt   bodywt
1             Cheetah    Acinonyx  carni     Carnivora  ...         NaN   11.9      NaN   50.000
2          Owl monkey       Aotus   omni      Primates  ...         NaN    7.0  0.01550    0.480
3     Mountain beaver  Aplodontia  herbi      Rodentia  ...         NaN    9.6      NaN    1.350
4 Greater short-ta...     Blarina   omni  Soricomorpha  ...    0.133333    9.1  0.00029    0.019
5                 Cow         Bos  herbi  Artiodactyla  ...    0.666667   20.0  0.42300  600.000
..                ...         ...    ...           ...  ...         ...    ...      ...      ...
79         Tree shrew      Tupaia   omni    Scandentia  ...    0.233333   15.1  0.00250    0.104
80 Bottle-nosed do...    Tursiops  carni       Cetacea  ...         NaN   18.8      NaN  173.330
81              Genet     Genetta  carni     Carnivora  ...         NaN   17.7  0.01750    2.000
82         Arctic fox      Vulpes  carni     Carnivora  ...         NaN   11.5  0.04450    3.380
83            Red fox      Vulpes  carni     Carnivora  ...    0.350000   14.2  0.05040    4.230
Pengantar Statistika di Python

Bobot tubuh vs waktu terjaga

Plot sebar bobot tubuh vs waktu terjaga

msleep['bodywt'].corr(msleep['awake'])
0.3119801
Pengantar Statistika di Python

Distribusi bobot tubuh

Histogram variabel bodywt

Pengantar Statistika di Python

Transformasi log

msleep['log_bodywt'] = np.log(msleep['bodywt'])

sns.lmplot(x='log_bodywt', y='awake', data=msleep, ci=None) plt.show()
msleep['log_bodywt'].corr(msleep['awake'])
0.5687943

Plot sebar log bodywt vs terjaga

Pengantar Statistika di Python

Transformasi lain

  • Transformasi log (log(x))
  • Transformasi akar kuadrat (sqrt(x))
  • Transformasi resiprok (1 / x)

  • Kombinasi, mis.:

    • log(x) dan log(y)
    • sqrt(x) dan 1 / y
Pengantar Statistika di Python

Mengapa pakai transformasi?

  • Metode statistik tertentu mengandalkan hubungan linear
    • Koefisien korelasi
    • Regresi linear

 

Introduction to Linear Modeling in Python

Pengantar Statistika di Python

Korelasi tidak menyiratkan kausalitas

                x berkorelasi dengan y bukan berarti x menyebabkan y

Plot sebar konsumsi margarin per kapita di AS vs tingkat perceraian di Maine. Variabel sangat berkorelasi dengan koefisien 0,99

Pengantar Statistika di Python

Perancu (confounding)

  Minum kopi (x) mengarah ke kanker paru (y)

Pengantar Statistika di Python

Perancu (confounding)

  Minum kopi (x) mengarah ke kanker paru (y) dengan merokok (perancu) di atas

Pengantar Statistika di Python

Perancu (confounding)

  Minum kopi (x) mengarah ke kanker paru (y) dengan merokok (perancu). Panah ganda antara merokok dan minum kopi bertuliskan "asosiasi".

Pengantar Statistika di Python

Perancu (confounding)

  Minum kopi (x) mengarah ke kanker paru (y) dengan merokok (perancu). Panah ganda antara merokok dan minum kopi bertuliskan "asosiasi". Panah dari merokok ke kanker paru bertuliskan "kausalitas"

Pengantar Statistika di Python

Perancu (confounding)

  Minum kopi (x) dengan panah ganda ke kanker paru (y) bertuliskan "asosiasi". Panah ganda antara merokok dan minum kopi bertuliskan "asosiasi". Panah dari merokok ke kanker paru bertuliskan "kausalitas".

  Liburan (x) mengarah ke penjualan ritel (y). Diskon khusus (perancu) punya panah ganda ke liburan dan panah tunggal ke penjualan ritel.

Pengantar Statistika di Python

Ayo berlatih!

Pengantar Statistika di Python

Preparing Video For Download...