Transformar variables

Introducción a la regresión con statsmodels en Python

Maarten Van den Broeck

Content Developer at DataCamp

Conjunto de datos de perca

perch = fish[fish["species"] == "Perch"]
print(perch.head())
   species  mass_g  length_cm
55   Perch     5.9        7.5
56   Perch    32.0       12.5
57   Perch    40.0       13.8
58   Perch    51.5       15.0
59   Perch    70.0       15.7

Perca europea, _Perca fluviatilis_

Introducción a la regresión con statsmodels en Python

No es una relación lineal

sns.regplot(x="length_cm",
            y="mass_g",
            data=perch,
            ci=None)

plt.show()

Dispersión de masas de perca frente a longitudes, con línea de tendencia. La perca aumenta de peso más que lineal al crecer, formando una curva ascendente.

Introducción a la regresión con statsmodels en Python

Besugo vs. perca

Un besugo común. Los besugos son bastante planos.

Una perca europea. Las percas son bastante redondeadas.

Introducción a la regresión con statsmodels en Python

Graficar masa vs. longitud al cubo

perch["length_cm_cubed"] = perch["length_cm"] ** 3
sns.regplot(x="length_cm_cubed",
            y="mass_g",
            data=perch,
            ci=None)
plt.show()

Diagrama de dispersión de masas de perca frente a longitudes al cubo, con línea de tendencia. Tras la transformación, los puntos quedan cerca de la línea.

Introducción a la regresión con statsmodels en Python

Modelar masa vs. longitud al cubo

perch["length_cm_cubed"] = perch["length_cm"] ** 3

mdl_perch = ols("mass_g ~ length_cm_cubed", data=perch).fit()
mdl_perch.params
Intercept         -0.117478
length_cm_cubed    0.016796
dtype: float64
Introducción a la regresión con statsmodels en Python

Predecir masa vs. longitud al cubo

explanatory_data = pd.DataFrame({"length_cm_cubed": np.arange(10, 41, 5) ** 3,
                                 "length_cm": np.arange(10, 41, 5)})
prediction_data = explanatory_data.assign(
  mass_g=mdl_perch.predict(explanatory_data))
print(prediction_data)
   length_cm_cubed  length_cm       mass_g
0             1000         10    16.678135
1             3375         15    56.567717
2             8000         20   134.247429
3            15625         25   262.313982
4            27000         30   453.364084
5            42875         35   719.994447
6            64000         40  1074.801781
Introducción a la regresión con statsmodels en Python

Graficar masa vs. longitud al cubo

fig = plt.figure()
sns.regplot(x="length_cm_cubed", y="mass_g",
            data=perch, ci=None)
sns.scatterplot(data=prediction_data,
                x="length_cm_cubed", y="mass_g",
                color="red", marker="s")

Diagrama de dispersión de masas de perca frente a longitudes al cubo, con línea de tendencia, anotado con puntos de predict(). Los puntos siguen exactamente la línea.

fig = plt.figure()
sns.regplot(x="length_cm", y="mass_g",
            data=perch, ci=None)
sns.scatterplot(data=prediction_data,
                x="length_cm", y="mass_g",
                color="red", marker="s")

Diagrama de dispersión de masas de perca frente a longitudes, con línea de tendencia, anotado con puntos de predict(). Los puntos no siguen la línea, pero sí la curva de los datos.

Introducción a la regresión con statsmodels en Python

Conjunto de datos de publicidad en Facebook

Cómo funciona la publicidad

  1. Pagas a Facebook para mostrar anuncios.
  2. La gente ve los anuncios ("impresiones").
  3. Algunos hacen clic.

 

  • 936 filas
  • Cada fila es 1 anuncio
spent_usd n_impressions n_clicks
1.43 7350 1
1.82 17861 2
1.25 4259 1
1.29 4133 1
4.77 15615 3
... ... ...
Introducción a la regresión con statsmodels en Python

El gráfico está apelotonado

sns.regplot(x="spent_usd",
            y="n_impressions",
            data=ad_conversion,
            ci=None)

Diagrama de dispersión de impresiones frente a gasto en anuncios, con línea de tendencia. La mayoría de puntos se amontonan abajo a la izquierda.

Introducción a la regresión con statsmodels en Python

Raíz cuadrada vs. raíz cuadrada

ad_conversion["sqrt_spent_usd"] = np.sqrt(
  ad_conversion["spent_usd"])

ad_conversion["sqrt_n_impressions"] = np.sqrt(
  ad_conversion["n_impressions"])

sns.regplot(x="sqrt_spent_usd",
            y="sqrt_n_impressions",
            data=ad_conversion,
            ci=None)

Dispersión de la raíz cuadrada de impresiones frente a la raíz cuadrada del gasto, con línea de tendencia. Ahora los puntos están más repartidos.

Introducción a la regresión con statsmodels en Python

Modelar y predecir

mdl_ad = ols("sqrt_n_impressions ~ sqrt_spent_usd", data=ad_conversion).fit()
explanatory_data = pd.DataFrame({"sqrt_spent_usd": np.sqrt(np.arange(0, 601, 100)),
                                 "spent_usd": np.arange(0, 601, 100)})
prediction_data = explanatory_data.assign(sqrt_n_impressions=mdl_ad.predict(explanatory_data),
                          n_impressions=mdl_ad.predict(explanatory_data) ** 2)
print(prediction_data)
   sqrt_spent_usd  spent_usd  sqrt_n_impressions  n_impressions
0        0.000000          0           15.319713   2.346936e+02
1       10.000000        100          597.736582   3.572890e+05
2       14.142136        200          838.981547   7.038900e+05
3       17.320508        300         1024.095320   1.048771e+06
4       20.000000        400         1180.153450   1.392762e+06
5       22.360680        500         1317.643422   1.736184e+06
6       24.494897        600         1441.943858   2.079202e+06
Introducción a la regresión con statsmodels en Python

¡Vamos a practicar!

Introducción a la regresión con statsmodels en Python

Preparing Video For Download...