Karar Ağacı

PySpark ile Machine Learning

Andrew Collier

Data Scientist, Fathom Data

Karar Ağacının Yapısı: Kök düğüm

Bir karar ağacının kök düğümü.

PySpark ile Machine Learning

Karar Ağacının Yapısı: İlk bölünme

Tek bölünmeli karar ağacı

PySpark ile Machine Learning

Karar Ağacının Yapısı: İkinci bölünme

İkinci bölünmeli karar ağacı

PySpark ile Machine Learning

Karar Ağacının Yapısı: Üçüncü bölünme

Üçüncü bölünmeli karar ağacı

PySpark ile Machine Learning

Arabaları sınıflandırma

Arabaları üretim ülkesine göre sınıflandırın.

+---+----+------+------+----+-----------+----------------------------------+-----+
|cyl|size|mass  |length|rpm |consumption|features                          |label|
+---+----+------+------+----+-----------+----------------------------------+-----+
|6  |3.0 |1451.0|4.775 |5200|9.05       |[6.0,3.0,1451.0,4.775,5200.0,9.05]|1.0  |
|4  |2.2 |1129.0|4.623 |5200|6.53       |[4.0,2.2,1129.0,4.623,5200.0,6.53]|0.0  |
|4  |2.2 |1399.0|4.547 |5600|7.84       |[4.0,2.2,1399.0,4.547,5600.0,7.84]|1.0  |
|4  |1.8 |1147.0|4.343 |6500|7.84       |[4.0,1.8,1147.0,4.343,6500.0,7.84]|0.0  |
|4  |1.6 |1111.0|4.216 |5750|9.05       |[4.0,1.6,1111.0,4.216,5750.0,9.05]|0.0  |
+---+----+------+------+----+-----------+----------------------------------+-----+

label = 0 -> ABD'de üretilmiş
      = 1 -> başka yerde üretilmiş
PySpark ile Machine Learning

Eğitim/test ayırma

Veriyi eğitim ve test kümelerine ayırın.

# Specify a seed for reproducibility
cars_train, cars_test = cars.randomSplit([0.8, 0.2], seed=23)

İki DataFrame: cars_train ve cars_test.

[cars_train.count(), cars_test.count()]
[79, 13]
PySpark ile Machine Learning

Karar Ağacı modeli kurma

from pyspark.ml.classification import DecisionTreeClassifier

Bir Karar Ağacı sınıflandırıcısı oluşturun.

tree = DecisionTreeClassifier()

Eğitim verisinden öğrenin.

tree_model = tree.fit(cars_train)
PySpark ile Machine Learning

Değerlendirme

Test verisi üzerinde tahmin yapın ve bilinen değerlerle karşılaştırın.

prediction = tree_model.transform(cars_test)
+-----+----------+---------------------------------------+
|label|prediction|probability                            |
+-----+----------+---------------------------------------+
|1.0  |0.0       |[0.9615384615384616,0.0384615384615385]|
|1.0  |1.0       |[0.2222222222222222,0.7777777777777778]|
|1.0  |1.0       |[0.2222222222222222,0.7777777777777778]|
|0.0  |0.0       |[0.9615384615384616,0.0384615384615385]|
|1.0  |1.0       |[0.2222222222222222,0.7777777777777778]|
+-----+----------+---------------------------------------+
PySpark ile Machine Learning

Karmaşıklık matrisi

Karmaşıklık matrisi, bir modelin test verisindeki performansını özetleyen bir tablodur.

prediction.groupBy("label", "prediction").count().show()
+-----+----------+-----+
|label|prediction|count|
+-----+----------+-----+
|  1.0|       1.0|    8| <- True positive  (TP)
|  0.0|       1.0|    2| <- False positive (FP)
|  1.0|       0.0|    3| <- False negative (FN)
|  0.0|       0.0|    6| <- True negative  (TN)
+-----+----------+-----+

Doğruluk = (TN + TP) / (TN + TP + FN + FP) — doğru tahminlerin oranı.

PySpark ile Machine Learning

Haydi Karar Ağaçları kuralım!

PySpark ile Machine Learning

Preparing Video For Download...