Sınıflandırma için Karar Ağacı

Python ile Ağaç Tabanlı Modellerle Machine Learning

Elie Kawerk

Data Scientist

Kurs Genel Bakış

Bölüm 1: Sınıflandırma ve Regresyon Ağacı (CART)
Bölüm 2: Sapma-Varyans Dengesi
Bölüm 3: Bagging ve Rastgele Ormanlar
Bölüm 4: Boosting
Bölüm 5: Model Ayarı

Sınıflandırma Ağacı

Tek tek özelliklere dair if-else soruları dizisi.
Amaç: sınıf etiketlerini çıkarmak.
Özelliklerle etiketler arasındaki doğrusal olmayan ilişkileri yakalar.
Özellik ölçekleme gerekmez (ör. Standardizasyon, ..)

İki Boyutta Meme Kanseri Veri Kümesi

BC2D

Karar Ağacı Diyagramı

CART-görünüm

scikit-learn ile Sınıflandırma Ağacı

# DecisionTreeClassifier'ı içe aktar
from sklearn.tree import DecisionTreeClassifier
# train_test_split'i içe aktar
from sklearn.model_selection import train_test_split
# accuracy_score'u içe aktar
from sklearn.metrics import accuracy_score

# Veri kümesini %80 eğitim, %20 test olarak böl
X_train, X_test, y_train, y_test= train_test_split(X, y, 
                                                   test_size=0.2, 
                                                   stratify=y,
                                                   random_state=1)

# dt'yi oluştur
dt = DecisionTreeClassifier(max_depth=2, random_state=1)

scikit-learn ile Sınıflandırma Ağacı

# Eğitim setine dt'yi uydur
dt.fit(X_train,y_train) 

# Test etiketlerini tahmin et
y_pred = dt.predict(X_test)

# Test kümesi doğruluğunu değerlendir
accuracy_score(y_test, y_pred)

0.90350877192982459

Karar Bölgeleri

Karar bölgesi: Özellik uzayında tüm örneklerin aynı sınıfa atandığı bölge.

Karar sınırı: Farklı karar bölgelerini ayıran yüzey.

Karar Bölgeleri: CART vs. Doğrusal Model

LRvsDT

Hadi pratik yapalım!

Python ile Ağaç Tabanlı Modellerle Machine Learning