Fazendo previsões

Introdução à Regressão com statsmodels em Python

Maarten Van den Broeck

Content Developer at DataCamp

O conjunto de dados de peixes: bream

bream = fish[fish["species"] == "Bream"]
print(bream.head())
  species  mass_g  length_cm
0   Bream   242.0       23.2
1   Bream   290.0       24.0
2   Bream   340.0       23.9
3   Bream   363.0       26.3
4   Bream   430.0       26.5

Bream comum, _Abramis brama_

Introdução à Regressão com statsmodels em Python

Gráfico de massa vs. comprimento

sns.regplot(x="length_cm",
            y="mass_g",
            data=bream,
            ci=None)

plt.show()

Um gráfico de dispersão das massas de bream versus seus comprimentos, com uma linha de tendência linear. Os pontos estão todos próximos à linha de tendência.

Introdução à Regressão com statsmodels em Python

Executando o modelo

mdl_mass_vs_length = ols("mass_g ~ length_cm", data=bream).fit()

print(mdl_mass_vs_length.params)
Intercept   -1035.347565
length_cm      54.549981
dtype: float64
Introdução à Regressão com statsmodels em Python

Dados sobre valores explicativos para prever

Se eu definir as variáveis explicativas para esses valores,
qual valor a variável de resposta teria?

explanatory_data = pd.DataFrame({"length_cm": np.arange(20, 41)})
    length_cm
0          20
1          21
2          22
3          23
4          24
5          25
     ...
Introdução à Regressão com statsmodels em Python

Chamar predict()

print(mdl_mass_vs_length.predict(explanatory_data))
0       55.652054
1      110.202035
2      164.752015
3      219.301996
4      273.851977
    ...
16     928.451749
17     983.001730
18    1037.551710
19    1092.101691
20    1146.651672
Length: 21, dtype: float64
Introdução à Regressão com statsmodels em Python

Prevendo dentro de um DataFrame

explanatory_data = pd.DataFrame(
  {"length_cm": np.arange(20, 41)}
)

prediction_data = explanatory_data.assign( mass_g=mdl_mass_vs_length.predict(explanatory_data) )
print(prediction_data)
    length_cm         mass_g
0          20      55.652054
1          21     110.202035
2          22     164.752015
3          23     219.301996
4          24     273.851977
..        ...            ...
16         36     928.451749
17         37     983.001730
18         38    1037.551710
19         39    1092.101691
20         40    1146.651672
Introdução à Regressão com statsmodels em Python

Mostrando previsões

import matplotlib.pyplot as plt
import seaborn as sns
fig = plt.figure()
sns.regplot(x="length_cm",
            y="mass_g",
            ci=None,
            data=bream,)
sns.scatterplot(x="length_cm",
                y="mass_g",
                data=prediction_data, 
                color="red",
                marker="s")
plt.show()

O gráfico de dispersão das massas de bream versus seus comprimentos, com uma linha de tendência linear. O gráfico foi anotado com os pontos calculados usando predict(). Esses pontos seguem exatamente a linha de tendência.

Introdução à Regressão com statsmodels em Python

Extrapolando

Extrapolar significa fazer previsões fora do intervalo de dados observados.

little_bream = pd.DataFrame({"length_cm": [10]})

pred_little_bream = little_bream.assign(
    mass_g=mdl_mass_vs_length.predict(little_bream))

print(pred_little_bream)
   length_cm      mass_g
0         10 -489.847756

O gráfico de dispersão das massas de bream versus seus comprimentos, com uma linha de tendência linear. O gráfico foi anotado com um bream fictício de 10 cm e sua massa prevista.

Introdução à Regressão com statsmodels em Python

Vamos praticar!

Introdução à Regressão com statsmodels em Python

Preparing Video For Download...