Vorverarbeitung von Daten

Überwachtes Lernen mit scikit-learn

George Boorman

Core Curriculum Manager, DataCamp

Anforderungen von scikit-learn

  • Numerische Daten
  • Keine fehlenden Werte

 

  • Daten in der realen Welt:
    • erfüllen diese Anforderungen meist nicht
    • müssen daher oft erst vorverarbeitet werden
Überwachtes Lernen mit scikit-learn

Umgang mit kategorialen Merkmalen

  • scikit-learn akzeptiert standardmäßig keine kategorialen Daten

  • Kategoriale Merkmale müssen in numerische Werte umgewandelt werden

  • Umwandlung in binäre Merkmale (sogenannte Dummy-Variablen)

    • 0: Beobachtung gehört NOT dieser Kategorie an

    • 1: Beobachtung gehört dieser Kategorie an

Überwachtes Lernen mit scikit-learn

Dummy-Variablen

Liste mit zehn Genres, darunter Electronic, Hip-Hop und Rock

Überwachtes Lernen mit scikit-learn

Dummy-Variablen

Raster mit den links aufgeführten Genres als Spaltennamen, in dem Nullen und Einsen als Werte eingetragen sind; eine 1 bedeutet, dass der Song dem jeweiligen Genre angehört, und eine 0 bedeutet, dass er dem Genre nicht angehört

Überwachtes Lernen mit scikit-learn

Dummy-Variablen

Dasselbe Raster mit Nullen und Einsen, aber diesmal ohne die Spalte für das Genre Rock

Überwachtes Lernen mit scikit-learn

Umgang mit kategorialen Merkmalen in Python

  • scikit-learn: OneHotEncoder()

  • pandas: get_dummies()

Überwachtes Lernen mit scikit-learn

Musik-Datensatz

  • popularity: Zielvariable
  • genre: kategoriales Merkmal
print(music.info())
     popularity    acousticness    danceability    ...    tempo         valence    genre
0    41.0          0.6440          0.823           ...    102.619000    0.649      Jazz
1    62.0          0.0855          0.686           ...    173.915000    0.636      Rap
2    42.0          0.2390          0.669           ...    145.061000    0.494      Electronic
3    64.0          0.0125          0.522           ...    120.406497    0.595      Rock
4    60.0          0.1210          0.780           ...    96.056000     0.312      Rap
Überwachtes Lernen mit scikit-learn

EDA mit kategorialem Merkmal

Kastendiagramm mit der Popularität für jedes Genre

Überwachtes Lernen mit scikit-learn

Codieren von Dummy-Variablen

import pandas as pd

music_df = pd.read_csv('music.csv')
music_dummies = pd.get_dummies(music_df["genre"], drop_first=True)
print(music_dummies.head())
     Anime    Blues    Classical    Country    Electronic    Hip-Hop    Jazz    Rap    Rock
0    0        0        0            0          0             0          1       0      0
1    0        0        0            0          0             0          0       1      0
2    0        0        0            0          1             0          0       0      0
3    0        0        0            0          0             0          0       0      1
4    0        0        0            0          0             0          0       1      0
music_dummies = pd.concat([music_df, music_dummies], axis=1)

music_dummies = music_dummies.drop("genre", axis=1)
Überwachtes Lernen mit scikit-learn

Codieren von Dummy-Variablen

music_dummies = pd.get_dummies(music_df, drop_first=True)

print(music_dummies.columns)
Index(['popularity', 'acousticness', 'danceability', 'duration_ms', 'energy',
       'instrumentalness', 'liveness', 'loudness', 'speechiness', 'tempo',
       'valence', 'genre_Anime', 'genre_Blues', 'genre_Classical',
       'genre_Country', 'genre_Electronic', 'genre_Hip-Hop', 'genre_Jazz',
       'genre_Rap', 'genre_Rock'],
      dtype='object')
Überwachtes Lernen mit scikit-learn

Lineare Regression mit Dummy-Variablen

from sklearn.model_selection import cross_val_score, KFold
from sklearn.linear_model import LinearRegression
X = music_dummies.drop("popularity", axis=1).values
y = music_dummies["popularity"].values
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, 
                                                    random_state=42)

kf = KFold(n_splits=5, shuffle=True, random_state=42)
linreg = LinearRegression()
linreg_cv = cross_val_score(linreg, X_train, y_train, cv=kf, scoring="neg_mean_squared_error")
print(np.sqrt(-linreg_cv))
[8.15792932, 8.63117538, 7.52275279, 8.6205778, 7.91329988]
Überwachtes Lernen mit scikit-learn

Lass uns üben!

Überwachtes Lernen mit scikit-learn

Preparing Video For Download...