Machine Learning met PySpark
Andrew Collier
Data Scientist, Fathom Data
Het is een verzameling modellen.
Wisdom of the Crowd — de collectieve mening is vaak beter dan die van één expert.
Diversiteit en onafhankelijkheid zijn belangrijk, omdat de beste collectieve beslissingen voortkomen uit meningsverschil en debat, niet uit consensus of compromis.
― James Surowiecki, The Wisdom of Crowds
Random Forest — een ensemble van Decision Trees
Diversiteit creëren:
Geen twee bomen in het bos zijn hetzelfde.

Terug naar de autodata: gemaakt in de VS (0.0) of niet (1.0).
Maak een Random Forest-classifier.
from pyspark.ml.classification import RandomForestClassifier
forest = RandomForestClassifier(numTrees=5)
Fit op de trainingsdata.
forest = forest.fit(cars_train)
Hoe krijg je toegang tot de bomen in het bos?
forest.trees
[DecisionTreeClassificationModel (uid=dtc_aa66702a4ce9) of depth 5 with 17 nodes,
DecisionTreeClassificationModel (uid=dtc_99f7efedafe9) of depth 5 with 31 nodes,
DecisionTreeClassificationModel (uid=dtc_9306e4a5fa1d) of depth 5 with 21 nodes,
DecisionTreeClassificationModel (uid=dtc_d643bd48a8dd) of depth 5 with 23 nodes,
DecisionTreeClassificationModel (uid=dtc_a2d5abd67969) of depth 5 with 27 nodes]
Deze kun je elk gebruiken voor individuele voorspellingen.
Welke voorspellingen geeft elke boom?
+------+------+------+------+------+-----+
|tree 0|tree 1|tree 2|tree 3|tree 4|label|
+------+------+------+------+------+-----+
| 0.0| 0.0| 0.0| 0.0| 0.0| 0.0| <- perfecte overeenstemming
| 1.0| 1.0| 0.0| 1.0| 0.0| 0.0|
| 0.0| 0.0| 0.0| 1.0| 1.0| 1.0|
| 0.0| 0.0| 0.0| 1.0| 0.0| 0.0|
| 0.0| 1.0| 1.0| 1.0| 0.0| 1.0|
| 1.0| 1.0| 0.0| 1.0| 1.0| 1.0|
| 1.0| 1.0| 1.0| 1.0| 1.0| 1.0| <- perfecte overeenstemming
+------+------+------+------+------+-----+
Gebruik de methode .transform() om consensusvoorspellingen te maken.
+-----+----------------------------------------+----------+
|label|probability |prediction|
+-----+----------------------------------------+----------+
|0.0 |[0.8,0.2] |0.0 |
|0.0 |[0.4,0.6] |1.0 |
|1.0 |[0.5333333333333333,0.4666666666666666] |0.0 |
|0.0 |[0.7177777777777778,0.28222222222222226]|0.0 |
|1.0 |[0.39396825396825397,0.606031746031746] |1.0 |
|1.0 |[0.17660818713450294,0.823391812865497] |1.0 |
|1.0 |[0.053968253968253964,0.946031746031746]|1.0 |
+-----+----------------------------------------+----------+
Het model gebruikt deze features: cyl, size, mass, length, rpm en consumption.
Welke is het belangrijkst of minst belangrijk?
forest.featureImportances
SparseVector(6, {0: 0.0205, 1: 0.2701, 2: 0.108, 3: 0.1895, 4: 0.2939, 5: 0.1181})
Ziet eruit als:
rpm is het belangrijkstcyl is het minst belangrijk.Iteratief boosting-algoritme:
Het model verbetert bij elke iteratie.
Maak een Gradient-Boosted Tree-classifier.
from pyspark.ml.classification import GBTClassifier
gbt = GBTClassifier(maxIter=10)
Fit op de trainingsdata.
gbt = gbt.fit(cars_train)
Vergelijk de drie boommodellen op testdata.
# AUC voor Decision Tree
0.5875
# AUC voor Random Forest
0.65
# AUC voor Gradient-Boosted Tree
0.65
Beide ensemblemethoden presteren beter dan een losse Decision Tree.
Machine Learning met PySpark