Machine learning con modelos basados en árboles en Python
Elie Kawerk
Data Scientist

Encontrar un modelo $\hat{f}$ que aproxime bien a $f$: $\hat{f} \approx f$
$\hat{f}$ puede ser Logistic Regression, Decision Tree, Neural Network ...
Descartar el ruido al máximo.
Objetivo final: $\hat{f}$ debe lograr bajo error predictivo en datos no vistos.
Sobreajuste (overfitting):
$\hat{f}(x)$ se ajusta al ruido del entrenamiento.
Subajuste (underfitting):
$\hat{f}$ no es lo bastante flexible para aproximar $f$.


Error de generalización de $\hat{f}$: ¿$\hat{f}$ generaliza bien en datos no vistos?
Se descompone así:
Error de generalización de $\hat{f} = bias^2 + variance + \text{irreducible error}$


Complejidad del modelo: fija la flexibilidad de $\hat{f}$.
Ejemplos: profundidad máxima del árbol, mínimo de muestras por hoja, ...


Machine learning con modelos basados en árboles en Python