Aprendizado de máquina com modelos baseados em árvores em Python
Elie Kawerk
Data Scientist

Encontrar um modelo $\hat{f}$ que melhor aproxima $f$: $\hat{f} \approx f$
$\hat{f}$ pode ser Regressão Logística, Árvore de Decisão, Rede Neural ...
Descartar o ruído ao máximo.
Objetivo final: $\hat{f}$ deve ter baixo erro preditivo em dados inéditos.
Overfitting:
$\hat{f}(x)$ ajusta o ruído do treino.
Underfitting:
$\hat{f}$ não é flexível o bastante para aproximar $f$.


Erro de generalização de $\hat{f}$: $\hat{f}$ generaliza bem em dados inéditos?
Pode ser decomposto assim:
Erro de generalização de $\hat{f} = bias^2 + variância + \text{erro irredutível}$


Complexidade do modelo: define a flexibilidade de $\hat{f}$.
Ex.: Profundidade máxima da árvore, mínimo de amostras por folha, ...


Aprendizado de máquina com modelos baseados em árvores em Python