Pembelajaran Ansambel

Machine Learning dengan Model Berbasis Pohon di Python

Elie Kawerk

Data Scientist

Kelebihan CART

Mudah dipahami.
Mudah diinterpretasi.
Mudah digunakan.
Fleksibel: dapat menangkap ketergantungan non-linear.
Praproses: tidak perlu standarisasi/normalisasi fitur, dst.

Keterbatasan CART

Klasifikasi: hanya menghasilkan batas keputusan ortogonal.
Sensitif terhadap variasi kecil pada data latih.
Varians tinggi: CART tanpa batasan dapat overfit data latih.
Solusi: pembelajaran ansambel.

Pembelajaran Ansambel

Latih beberapa model pada dataset yang sama.
Biarkan tiap model membuat prediksi.
Meta-model: menggabungkan prediksi model individual.
Prediksi akhir: lebih andal dan kurang rentan salah.
Hasil terbaik: model mahir dengan cara berbeda.

Pembelajaran Ansambel: Penjelasan Visual

ensemble-visual

Ansambel dalam Praktik: Voting Classifier

Tugas klasifikasi biner.
Ada N pengklasifikasi memberi prediksi: P1, P2, ..., PN dengan Pi = 0 atau 1.
Prediksi meta-model: hard voting.

Hard Voting

hard-voting

VotingClassifier di sklearn (dataset Breast-Cancer)

# Import functions to compute accuracy and split data
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split

# Import models, including VotingClassifier meta-model
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier as KNN
from sklearn.ensemble import VotingClassifier

# Set seed for reproducibility
SEED = 1

VotingClassifier di sklearn (dataset Breast-Cancer)

# Split data into 70% train and 30% test
X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                    test_size= 0.3,
                                                    random_state= SEED)
# Instantiate individual classifiers
lr = LogisticRegression(random_state=SEED)
knn = KNN()
dt = DecisionTreeClassifier(random_state=SEED)

# Define a list called classifier that contains the tuples (classifier_name, classifier)
classifiers = [('Logistic Regression', lr), 
               ('K Nearest Neighbours', knn),
               ('Classification Tree', dt)]

# Iterate over the defined list of tuples containing the classifiers
for clf_name, clf in classifiers:
    #fit clf to the training set
    clf.fit(X_train, y_train)

    # Predict the labels of the test set
    y_pred = clf.predict(X_test)

    # Evaluate the accuracy of clf on the test set
    print('{:s} : {:.3f}'.format(clf_name, accuracy_score(y_test, y_pred)))

Logistic Regression: 0.947
K Nearest Neighbours: 0.930
Classification Tree: 0.930

VotingClassifier di sklearn (dataset Breast-Cancer)

# Instantiate a VotingClassifier 'vc'
vc = VotingClassifier(estimators=classifiers) 

# Fit 'vc' to the traing set and predict test set labels
vc.fit(X_train, y_train)   
y_pred = vc.predict(X_test)

# Evaluate the test-set accuracy of 'vc'
print('Voting Classifier: {.3f}'.format(accuracy_score(y_test, y_pred)))

Voting Classifier: 0.953

Ayo berlatih!

Machine Learning dengan Model Berbasis Pohon di Python