Pembelajaran Pohon Klasifikasi

Machine Learning dengan Model Berbasis Pohon di Python

Elie Kawerk

Data Scientist

Komponen Dasar Pohon Keputusan

  • Pohon Keputusan: struktur data berupa hierarki node.

  • Node: pertanyaan atau prediksi.

Machine Learning dengan Model Berbasis Pohon di Python

Komponen Dasar Pohon Keputusan

Tiga jenis node:

  • Akar: tanpa induk, pertanyaan yang menghasilkan dua anak.

  • Node internal: satu induk, pertanyaan yang menghasilkan dua anak.

  • Daun: satu induk, tanpa anak --> prediksi.

Machine Learning dengan Model Berbasis Pohon di Python

Prediksi

DT-berlabel

Machine Learning dengan Model Berbasis Pohon di Python

Information Gain (IG)

Diagram-IG

Machine Learning dengan Model Berbasis Pohon di Python

Information Gain (IG)

Rumus-IG

Kriteria untuk mengukur impuritas node $I (node)$:

  • indeks gini,
  • entropi. ...
Machine Learning dengan Model Berbasis Pohon di Python

Pembelajaran Pohon Klasifikasi

  • Node ditumbuhkan secara rekursif.

  • Di tiap node, bagi data berdasarkan:

    • fitur $f$ dan titik-belah $sp$ untuk memaksimalkan $IG(\text{node})$.
  • Jika $IG (\text{node})$ = 0, jadikan node sebagai daun.

    ...

Machine Learning dengan Model Berbasis Pohon di Python
# Import DecisionTreeClassifier
from sklearn.tree import DecisionTreeClassifier
# Import train_test_split
from sklearn.model_selection import train_test_split
# Import accuracy_score
from sklearn.metrics import accuracy_score
# Split dataset into 80% train, 20% test
X_train, X_test, y_train, y_test= train_test_split(X, y, 
                                                   test_size=0.2, 
                                                   stratify=y,
                                                   random_state=1)
# Instantiate dt, set 'criterion' to 'gini'
dt = DecisionTreeClassifier(criterion='gini', random_state=1)
Machine Learning dengan Model Berbasis Pohon di Python

Kriteria Informasi di scikit-learn

# Fit dt to the training set
dt.fit(X_train,y_train)

# Predict test-set labels
y_pred= dt.predict(X_test)

# Evaluate test-set accuracy
accuracy_score(y_test, y_pred)
0.92105263157894735
Machine Learning dengan Model Berbasis Pohon di Python

Ayo berlatih!

Machine Learning dengan Model Berbasis Pohon di Python

Preparing Video For Download...