PySpark ile Machine Learning
Andrew Collier
Data Scientist, Fathom Data
Bu, modellerin bir koleksiyonudur.
Kalabalığın Bilgeliği — bir grubun ortak görüşü, tek bir uzmanınkinden daha iyidir.
En iyi ortak kararlar, uzlaşıdan ya da uzlaştırmadan değil, anlaşmazlık ve çekişmeden doğduğu için, çeşitlilik ve bağımsızlık önemlidir.
― James Surowiecki, Kalabalıkların Bilgeliği
Rastgele Orman — Karar Ağaçlarının bir topluluğu
Model çeşitliliği oluşturma:
Ormandaki iki ağaç aynı olmamalıdır.

Arabalara geri dönelim: ABD'de üretilmiş (0.0) ya da değil (1.0).
Rastgele Orman sınıflandırıcı oluşturun.
from pyspark.ml.classification import RandomForestClassifier
forest = RandomForestClassifier(numTrees=5)
Eğitim verisine uydurun.
forest = forest.fit(cars_train)
Ormandaki ağaçlara nasıl erişilir?
forest.trees
[DecisionTreeClassificationModel (uid=dtc_aa66702a4ce9) of depth 5 with 17 nodes,
DecisionTreeClassificationModel (uid=dtc_99f7efedafe9) of depth 5 with 31 nodes,
DecisionTreeClassificationModel (uid=dtc_9306e4a5fa1d) of depth 5 with 21 nodes,
DecisionTreeClassificationModel (uid=dtc_d643bd48a8dd) of depth 5 with 23 nodes,
DecisionTreeClassificationModel (uid=dtc_a2d5abd67969) of depth 5 with 27 nodes]
Bunların her biri tek başına tahmin üretebilir.
Her ağaç hangi tahminleri üretiyor?
+------+------+------+------+------+-----+
|tree 0|tree 1|tree 2|tree 3|tree 4|label|
+------+------+------+------+------+-----+
| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| <- tam uzlaşı
| 1.0| 1.0| 0.0| 1.0| 0.0| 0.0|
| 0.0| 0.0| 0.0| 1.0| 1.0| 1.0|
| 0.0| 0.0| 0.0| 1.0| 0.0| 0.0|
| 0.0| 1.0| 1.0| 1.0| 0.0| 1.0|
| 1.0| 1.0| 0.0| 1.0| 1.0| 1.0|
| 1.0| 1.0| 1.0| 1.0| 1.0| 1.0| <- tam uzlaşı
+------+------+------+------+------+-----+
Uzlaşı tahmini üretmek için .transform() yöntemini kullanın.
+-----+----------------------------------------+----------+
|label|probability |prediction|
+-----+----------------------------------------+----------+
|0.0 |[0.8,0.2] |0.0 |
|0.0 |[0.4,0.6] |1.0 |
|1.0 |[0.5333333333333333,0.4666666666666666] |0.0 |
|0.0 |[0.7177777777777778,0.28222222222222226]|0.0 |
|1.0 |[0.39396825396825397,0.606031746031746] |1.0 |
|1.0 |[0.17660818713450294,0.823391812865497] |1.0 |
|1.0 |[0.053968253968253964,0.946031746031746]|1.0 |
+-----+----------------------------------------+----------+
Model şu özellikleri kullanır: cyl, size, mass, length, rpm ve consumption.
Hangileri en/az önemli?
forest.featureImportances
SparseVector(6, {0: 0.0205, 1: 0.2701, 2: 0.108, 3: 0.1895, 4: 0.2939, 5: 0.1181})
Şöyle görünüyor:
rpmcyl.Yinelemeli boosting algoritması:
Model her yinelemede iyileşir.
Bir Gradyan Artırmalı Ağaç sınıflandırıcı oluşturun.
from pyspark.ml.classification import GBTClassifier
gbt = GBTClassifier(maxIter=10)
Eğitim verisine uydurun.
gbt = gbt.fit(cars_train)
Üç ağaç modelini test verisi üzerinde karşılaştıralım.
# Karar Ağacı için AUC
0.5875
# Rastgele Orman için AUC
0.65
# Gradyan Artırmalı Ağaç için AUC
0.65
Topluluk yöntemleri, düz bir Karar Ağacı’ndan daha iyi performans gösterir.
PySpark ile Machine Learning