Überwachtes Lernen mit scikit-learn
George Boorman
Core Curriculum Manager, DataCamp
$y = ax + b$
Einfache lineare Regression verwendet ein Merkmal
$y$ = Zielvariable
$x$ = einzelnes Merkmal
$a$, $b$ = Parameter/Koeffizienten des Modells (Steigung und Achsenabschnitt)
Wie wählen wir $a$ und $b$?
Definition einer Fehlerfunktion für eine Gerade
Auswahl der Geraden, die das Minimum der Fehlerfunktion liefert
Fehlerfunktion = Verlustfunktion = Kostenfunktion
$RSS = $ $\displaystyle\sum_{i=1}^{n}(y_i-\hat{y_i})^2$
Methode der kleinsten Quadrate (OLS): RSS minimieren
$$ y = a_{1}x_{1} + a_{2}x_{2} + b$$
$$ y = a_{1}x_{1} + a_{2}x_{2} + a_{3}x_{3} +... + a_{n}x_{n}+ b$$
from sklearn.model_selection import train_test_split from sklearn.linear_model import LinearRegression
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)
reg_all = LinearRegression()
reg_all.fit(X_train, y_train)
y_pred = reg_all.predict(X_test)
$R^2$: gibt an, welcher Anteil der Varianz in den Zielwerten durch die Merkmale erklärt wird
Hoher Wert für $R^2$:
reg_all.score(X_test, y_test)
0.356302876407827
$MSE = $ $\displaystyle\frac{1}{n}\sum_{i=1}^{n}(y_i-\hat{y_i})^2$
$RMSE = $ $\sqrt{MSE}$
from sklearn.metrics import root_mean_squared_error
root_mean_squared_error(y_test, y_pred)
24.028109426907236
Überwachtes Lernen mit scikit-learn