Umgang mit fehlenden Daten

Überwachtes Lernen mit scikit-learn

George Boorman

Core Curriculum Manager, DataCamp

Fehlende Daten

Kein Wert für ein Merkmal in einer bestimmten Zeile vorhanden
Mögliche Ursachen:
- Daten wurden gar nicht erfasst
- Daten sind fehlerhaft oder verloren gegangen
Fehlende Daten müssen korrigiert werden

Musik-Datensatz

print(music_df.isna().sum().sort_values())

genre                 8
popularity           31
loudness             44
liveness             46
tempo                46
speechiness          59
duration_ms          91
instrumentalness     91
danceability        143
valence             143
acousticness        200
energy              200
dtype: int64

Verwerfen von fehlenden Daten

music_df = music_df.dropna(subset=["genre", "popularity", "loudness", "liveness", "tempo"])

print(music_df.isna().sum().sort_values())

popularity            0
liveness              0
loudness              0
tempo                 0
genre                 0
duration_ms          29
instrumentalness     29
speechiness          53
danceability        127
valence             127
acousticness        178
energy              178
dtype: int64

Imputation von Werten

Imputation: fehlende Daten werden mithilfe fundierter Vermutungen durch geschätzte ähnliche Werte ersetzt
Üblicherweise wird der Mittelwert verwendet
Auch der Median oder ein anderer Wert sind mögliche Optionen
Bei kategorialen Daten wird meist der häufigste Wert genutzt (Modalwert)
Aufteilung der Daten in Trainings- und Testdaten ist wichtig, um Verzerrungen im Modell (Datenlecks) zu vermeiden.

Imputation mit scikit-learn

from sklearn.impute import SimpleImputer

X_cat = music_df["genre"].values.reshape(-1, 1)
X_num = music_df.drop(["genre", "popularity"], axis=1).values
y = music_df["popularity"].values

X_train_cat, X_test_cat, y_train, y_test = train_test_split(X_cat, y, test_size=0.2,
                                                            random_state=12)

X_train_num, X_test_num, y_train, y_test = train_test_split(X_num, y, test_size=0.2,
                                                            random_state=12)

imp_cat = SimpleImputer(strategy="most_frequent")

X_train_cat = imp_cat.fit_transform(X_train_cat)

X_test_cat = imp_cat.transform(X_test_cat)

Imputation mit scikit-learn

imp_num = SimpleImputer()

X_train_num = imp_num.fit_transform(X_train_num)

X_test_num = imp_num.transform(X_test_num)

X_train = np.append(X_train_num, X_train_cat, axis=1)

X_test = np.append(X_test_num, X_test_cat, axis=1)

Imputer sind als Transformatoren bekannt

Imputation innerhalb einer Pipeline

from sklearn.pipeline import Pipeline

music_df = music_df.dropna(subset=["genre", "popularity", "loudness", "liveness", "tempo"])

music_df["genre"] = np.where(music_df["genre"] == "Rock", 1, 0)

X = music_df.drop("genre", axis=1).values
y = music_df["genre"].values

Imputation innerhalb einer Pipeline

steps = [("imputation", SimpleImputer()),
         ("logistic_regression", LogisticRegression())]

pipeline = Pipeline(steps)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3,
                                                    random_state=42)

pipeline.fit(X_train, y_train)

pipeline.score(X_test, y_test)

0.7593582887700535

Lass uns üben!

Überwachtes Lernen mit scikit-learn