Erro de generalização

Aprendizado de máquina com modelos baseados em árvores em Python

Elie Kawerk

Data Scientist

Supervisionado — Por baixo dos panos

  • Aprendizado supervisionado: $y = f(x)$, $f$ é desconhecida.

ds-ruidoso

Aprendizado de máquina com modelos baseados em árvores em Python

Objetivos do aprendizado supervisionado

  • Encontrar um modelo $\hat{f}$ que melhor aproxima $f$: $\hat{f} \approx f$

  • $\hat{f}$ pode ser Regressão Logística, Árvore de Decisão, Rede Neural ...

  • Descartar o ruído ao máximo.

  • Objetivo final: $\hat{f}$ deve ter baixo erro preditivo em dados inéditos.

Aprendizado de máquina com modelos baseados em árvores em Python

Dificuldades ao aproximar $f$

  • Overfitting:

    $\hat{f}(x)$ ajusta o ruído do treino.

  • Underfitting:

    $\hat{f}$ não é flexível o bastante para aproximar $f$.

Aprendizado de máquina com modelos baseados em árvores em Python

Overfitting

overfitting

Aprendizado de máquina com modelos baseados em árvores em Python

Underfitting

underfitting

Aprendizado de máquina com modelos baseados em árvores em Python

Erro de generalização

  • Erro de generalização de $\hat{f}$: $\hat{f}$ generaliza bem em dados inéditos?

  • Pode ser decomposto assim:

    Erro de generalização de $\hat{f} = bias^2 + variância + \text{erro irredutível}$

Aprendizado de máquina com modelos baseados em árvores em Python

Viés

  • Viés (bias): indica, em média, o quanto $\hat{f} \neq f$.

alto-viés

Aprendizado de máquina com modelos baseados em árvores em Python

Variância

  • Variância: mede o quanto $\hat{f}$ varia entre diferentes conjuntos de treino.

alta-variância

Aprendizado de máquina com modelos baseados em árvores em Python

Complexidade do modelo

  • Complexidade do modelo: define a flexibilidade de $\hat{f}$.

  • Ex.: Profundidade máxima da árvore, mínimo de amostras por folha, ...

Aprendizado de máquina com modelos baseados em árvores em Python

Trade-off viés–variância

decomposicao-geralizacao

Aprendizado de máquina com modelos baseados em árvores em Python

Trade-off viés–variância: explicação visual

visual-bias-variance

Aprendizado de máquina com modelos baseados em árvores em Python

Vamos praticar!

Aprendizado de máquina com modelos baseados em árvores em Python

Preparing Video For Download...