Error de generalización

Machine learning con modelos basados en árboles en Python

Elie Kawerk

Data Scientist

Aprendizaje supervisado: bajo el capó

Aprendizaje supervisado: $y = f(x)$, $f$ es desconocida.

ds-ruidoso

Objetivos del aprendizaje supervisado

Encontrar un modelo $\hat{f}$ que aproxime bien a $f$: $\hat{f} \approx f$
$\hat{f}$ puede ser Logistic Regression, Decision Tree, Neural Network ...
Descartar el ruido al máximo.
Objetivo final: $\hat{f}$ debe lograr bajo error predictivo en datos no vistos.

Dificultades al aproximar $f$

Sobreajuste (overfitting):

$\hat{f}(x)$ se ajusta al ruido del entrenamiento.

Subajuste (underfitting):

$\hat{f}$ no es lo bastante flexible para aproximar $f$.

Sobreajuste

sobreajuste

Subajuste

subajuste

Error de generalización

Error de generalización de $\hat{f}$: ¿$\hat{f}$ generaliza bien en datos no vistos?
Se descompone así:

Error de generalización de $\hat{f} = bias^2 + variance + \text{irreducible error}$

Sesgo

Sesgo (bias): mide, en promedio, cuánto $\hat{f} \neq f$.

alto-sesgo

Varianza

Varianza (variance): indica cuánto varía $\hat{f}$ entre distintos conjuntos de entrenamiento.

alta-varianza

Complejidad del modelo

Complejidad del modelo: fija la flexibilidad de $\hat{f}$.
Ejemplos: profundidad máxima del árbol, mínimo de muestras por hoja, ...

Compensación sesgo-varianza

descomposicion-gener

Compensación sesgo-varianza: explicación visual

visual-sesgo-varianza

¡Vamos a practicar!

Machine learning con modelos basados en árboles en Python

Preparing Video For Download...