Error de generalización

Machine learning con modelos basados en árboles en Python

Elie Kawerk

Data Scientist

Aprendizaje supervisado: bajo el capó

  • Aprendizaje supervisado: $y = f(x)$, $f$ es desconocida.

ds-ruidoso

Machine learning con modelos basados en árboles en Python

Objetivos del aprendizaje supervisado

  • Encontrar un modelo $\hat{f}$ que aproxime bien a $f$: $\hat{f} \approx f$

  • $\hat{f}$ puede ser Logistic Regression, Decision Tree, Neural Network ...

  • Descartar el ruido al máximo.

  • Objetivo final: $\hat{f}$ debe lograr bajo error predictivo en datos no vistos.

Machine learning con modelos basados en árboles en Python

Dificultades al aproximar $f$

  • Sobreajuste (overfitting):

    $\hat{f}(x)$ se ajusta al ruido del entrenamiento.

  • Subajuste (underfitting):

    $\hat{f}$ no es lo bastante flexible para aproximar $f$.

Machine learning con modelos basados en árboles en Python

Sobreajuste

sobreajuste

Machine learning con modelos basados en árboles en Python

Subajuste

subajuste

Machine learning con modelos basados en árboles en Python

Error de generalización

  • Error de generalización de $\hat{f}$: ¿$\hat{f}$ generaliza bien en datos no vistos?

  • Se descompone así:

    Error de generalización de $\hat{f} = bias^2 + variance + \text{irreducible error}$

Machine learning con modelos basados en árboles en Python

Sesgo

  • Sesgo (bias): mide, en promedio, cuánto $\hat{f} \neq f$.

alto-sesgo

Machine learning con modelos basados en árboles en Python

Varianza

  • Varianza (variance): indica cuánto varía $\hat{f}$ entre distintos conjuntos de entrenamiento.

alta-varianza

Machine learning con modelos basados en árboles en Python

Complejidad del modelo

  • Complejidad del modelo: fija la flexibilidad de $\hat{f}$.

  • Ejemplos: profundidad máxima del árbol, mínimo de muestras por hoja, ...

Machine learning con modelos basados en árboles en Python

Compensación sesgo-varianza

descomposicion-gener

Machine learning con modelos basados en árboles en Python

Compensación sesgo-varianza: explicación visual

visual-sesgo-varianza

Machine learning con modelos basados en árboles en Python

¡Vamos a practicar!

Machine learning con modelos basados en árboles en Python

Preparing Video For Download...