Maschinelles Lernen mit baumbasierten Modellen in Python
Elie Kawerk
Data Scientist

Finde ein Modell $\hat{f}$, das am besten passt: für $f$: $\hat{f} \approx f$
$\hat{f}$ kann eine logistische Regression, ein Entscheidungsbaum, oder ein neuronales Netzwerk, etc. sein
Störendes Rauschen so gut es geht ausblenden.
Ziel: $\hat{f}$ soll bei unbekannten Datensätzen einen geringen Vorhersagefehler aufweisen.
Überanpassung:
$\hat{f}(x)$ passt auf das Rauschen des Trainingsdatensatzes an.
Unteranpassung:
$\hat{f}$ ist nicht flexibel genug, um sich $f$ anzunähern.


Generalisierungsfehler von $\hat{f}$: Generalisiert $\hat{f}$ gut mit unbekannten Daten?
Man kann das wie folgt aufschlüsseln:
Generalisierungsfehler von $\hat{f} = bias^2 + variance + \text{irreducible error}$


Modellkomplexität: Legt fest, wie flexibel die Funktion $\hat{f}$ ist.
Beispiel: Maximale Baumtiefe, Mindeststichproben pro Blatt


Maschinelles Lernen mit baumbasierten Modellen in Python