Variáveis explicativas categóricas

Introdução à Regressão com statsmodels em Python

Maarten Van den Broeck

Content Developer at DataCamp

Conjunto de dados de peixes

  • Cada linha representa um peixe.
  • O conjunto de dados tem 128 linhas.
  • Existem 4 espécies de peixes:
    • Bream Comum
    • Perch Europeu
    • Pike do Norte
    • Roach Comum
species mass_g
Bream 242.0
Perch 5.9
Pike 200.0
Roach 40.0
... ...
Introdução à Regressão com statsmodels em Python

Visualizando 1 variável numérica e 1 categórica

import matplotlib.pyplot as plt
import seaborn as sns

sns.displot(data=fish,
            x="mass_g",
            col="species",
            col_wrap=2,
            bins=9)

plt.show()

Um histograma facetado de contagens de peixes versus seus pesos. Cada painel contém uma espécie: bream, perch, pike ou roach.

Introdução à Regressão com statsmodels em Python

Estatísticas resumidas: massa média por espécie

dados_resumo = fish.groupby("species")["mass_g"].mean()
print(dados_resumo)
species
Bream    617.828571
Perch    382.239286
Pike     718.705882
Roach    152.050000
Name: mass_g, dtype: float64
Introdução à Regressão com statsmodels em Python

Regressão linear

from statsmodels.formula.api import ols 
mdl_mass_vs_species = ols("mass_g ~ species", data=fish).fit()

print(mdl_mass_vs_species.params)
Intercept           617.828571
species[T.Perch]   -235.589286
species[T.Pike]     100.877311
species[T.Roach]   -465.778571
Introdução à Regressão com statsmodels em Python

Modelo com ou sem intercepto

Do slide anterior, modelo com intercepto

mdl_mass_vs_species = ols(
  "mass_g ~ species", data=fish).fit()

print(mdl_mass_vs_species.params)
Intercept           617.828571
species[T.Perch]   -235.589286
species[T.Pike]     100.877311
species[T.Roach]   -465.778571

Os coeficientes são relativos ao intercepto: $617.83 - 235.59 = 382.24!$

Modelo sem intercepto

mdl_mass_vs_species = ols(
  "mass_g ~ species + 0", data=fish).fit()

print(mdl_mass_vs_species.params)
species[Bream]    617.828571
species[Perch]    382.239286
species[Pike]     718.705882
species[Roach]    152.050000

No caso de uma única variável categórica, os coeficientes são as médias.

Introdução à Regressão com statsmodels em Python

Vamos praticar!

Introdução à Regressão com statsmodels em Python

Preparing Video For Download...