Erro de generalização

Aprendizado de máquina com modelos baseados em árvores em Python

Elie Kawerk

Data Scientist

Supervisionado — Por baixo dos panos

Aprendizado supervisionado: $y = f(x)$, $f$ é desconhecida.

ds-ruidoso

Objetivos do aprendizado supervisionado

Encontrar um modelo $\hat{f}$ que melhor aproxima $f$: $\hat{f} \approx f$
$\hat{f}$ pode ser Regressão Logística, Árvore de Decisão, Rede Neural ...
Descartar o ruído ao máximo.
Objetivo final: $\hat{f}$ deve ter baixo erro preditivo em dados inéditos.

Dificuldades ao aproximar $f$

Overfitting:

$\hat{f}(x)$ ajusta o ruído do treino.

Underfitting:

$\hat{f}$ não é flexível o bastante para aproximar $f$.

Overfitting

overfitting

Underfitting

underfitting

Erro de generalização

Erro de generalização de $\hat{f}$: $\hat{f}$ generaliza bem em dados inéditos?
Pode ser decomposto assim:

Erro de generalização de $\hat{f} = bias^2 + variância + \text{erro irredutível}$

Viés

Viés (bias): indica, em média, o quanto $\hat{f} \neq f$.

alto-viés

Variância

Variância: mede o quanto $\hat{f}$ varia entre diferentes conjuntos de treino.

alta-variância

Complexidade do modelo

Complexidade do modelo: define a flexibilidade de $\hat{f}$.
Ex.: Profundidade máxima da árvore, mínimo de amostras por folha, ...

Trade-off viés–variância

decomposicao-geralizacao

Trade-off viés–variância: explicação visual

visual-bias-variance

Vamos praticar!

Aprendizado de máquina com modelos baseados em árvores em Python

Preparing Video For Download...