Mengevaluasi banyak model

Supervised Learning dengan scikit-learn

George Boorman

Core Curriculum Manager, DataCamp

Model berbeda untuk masalah berbeda

Beberapa prinsip panduan

  • Ukuran dataset
    • Lebih sedikit fitur = model lebih sederhana, pelatihan lebih cepat
    • Beberapa model butuh data besar agar kinerjanya baik
  • Interpretabilitas
    • Sebagian model lebih mudah dijelaskan, penting bagi pemangku kepentingan
    • Linear regression sangat mudah diinterpretasi karena koefisiennya dapat dipahami
  • Fleksibilitas
    • Dapat meningkatkan akurasi dengan asumsi lebih sedikit tentang data
    • KNN lebih fleksibel, tidak mengasumsikan hubungan linear
Supervised Learning dengan scikit-learn

Semua soal metrik

  • Kinerja model regresi:

    • RMSE
    • R-squared
  • Kinerja model klasifikasi:

    • Akurasi
    • Confusion matrix
    • Precision, recall, F1-score
    • ROC AUC
  • Latih beberapa model dan evaluasi performanya langsung

Supervised Learning dengan scikit-learn

Catatan tentang penskalaan

  • Model yang terpengaruh skala:
    • KNN
    • Linear Regression (serta Ridge, Lasso)
    • Logistic Regression
    • Artificial Neural Network

 

  • Sebaiknya skala data sebelum mengevaluasi model
Supervised Learning dengan scikit-learn

Mengevaluasi model klasifikasi

import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import cross_val_score, KFold, train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier

X = music.drop("genre", axis=1).values y = music["genre"].values X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)
scaler = StandardScaler() X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)
Supervised Learning dengan scikit-learn

Mengevaluasi model klasifikasi

models = {"Logistic Regression": LogisticRegression(), "KNN": KNeighborsClassifier(), 
         "Decision Tree": DecisionTreeClassifier()}
results = []

for model in models.values():
kf = KFold(n_splits=6, random_state=42, shuffle=True)
cv_results = cross_val_score(model, X_train_scaled, y_train, cv=kf)
results.append(cv_results)
plt.boxplot(results, labels=models.keys()) plt.show()
Supervised Learning dengan scikit-learn

Memvisualisasikan hasil

Boxplot akurasi untuk tiap model: Logistic Regression, KNN, dan Decision Tree

Supervised Learning dengan scikit-learn

Performa pada test set

for name, model in models.items():

model.fit(X_train_scaled, y_train)
test_score = model.score(X_test_scaled, y_test)
print("{} Test Set Accuracy: {}".format(name, test_score))
Logistic Regression Test Set Accuracy: 0.844
KNN Test Set Accuracy: 0.82
Decision Tree Test Set Accuracy: 0.832
Supervised Learning dengan scikit-learn

Ayo berlatih!

Supervised Learning dengan scikit-learn

Preparing Video For Download...