Raggruppamento e feature engineering

Machine Learning con PySpark

Andrew Collier

Data Scientist, Fathom Data

Bucketing

Raggruppare osservazioni continue in bucket

Machine Learning con PySpark

Raggruppare le altezze

Un istogramma delle altezze

+------+
|height|
+------+
|  1.42|
|  1.45|
|  1.47|
|  1.50|
|  1.52|
|  1.57|
|  1.60|
|  1.75|
|  1.85|
|  1.88|
+------+
Machine Learning con PySpark

Raggruppare le altezze

Un istogramma delle altezze con intervalli

+------+
|height|
+------+
|  1.42|
|  1.45|
|  1.47|
|  1.50|
|  1.52|
|  1.57|
|  1.60|
|  1.75|
|  1.85|
|  1.88|
+------+
Machine Learning con PySpark

Raggruppare le altezze

Un istogramma delle altezze con intervalli ed etichette

+------+
|height|
+------+
|  1.42|
|  1.45|
|  1.47|
|  1.50|
|  1.52|
|  1.57|
|  1.60|
|  1.75|
|  1.85|
|  1.88|
+------+
Machine Learning con PySpark

Raggruppare le altezze

Un istogramma delle altezze con intervalli ed etichette

+------+----------+
|height|height_bin|
+------+----------+
|  1.42|     short|
|  1.45|     short|
|  1.47|     short|
|  1.50|     short|
|  1.52|   average|
|  1.57|   average|
|  1.60|   average|
|  1.75|   average|
|  1.85|      tall|
|  1.88|      tall|
+------+----------+
Machine Learning con PySpark

Istogramma RPM

I giri motore (RPM) hanno soglie “naturali”:

  • $\text{RPM} < 4500$ — basso
  • $\text{RPM} > 6000$ — alto
  • altrimenti — medio.

Un istogramma degli RPM con intervalli ed etichette

Machine Learning con PySpark

Bucket per RPM

from pyspark.ml.feature import Bucketizer

bucketizer = Bucketizer(splits=[3500, 4500, 6000, 6500],
                        inputCol="rpm",
                        outputCol="rpm_bin")

Applica i bucket alla colonna rpm.

bucketed = bucketizer.transform(cars)
Machine Learning con PySpark

Bucket per RPM

bucketed.select('rpm', 'rpm_bin').show(5)
+----+-------+
| rpm|rpm_bin|
+----+-------+
|3800|    0.0|
|4500|    1.0|
|5750|    1.0|
|5300|    1.0|
|6200|    2.0|
+----+-------+
bucketed.groupBy('rpm_bin').count().show()
+-------+-----+
|rpm_bin|count|
+-------+-----+
|    0.0|    8| <- basso
|    1.0|   67| <- medio
|    2.0|   17| <- alto
+-------+-----+
Machine Learning con PySpark

Bucket RPM one-hot encoded

I bucket RPM sono one-hot encoded in variabili dummy.

+-------+-------------+
|rpm_bin|    rpm_dummy|
+-------+-------------+
|    0.0|(2,[0],[1.0])| <- basso
|    1.0|(2,[1],[1.0])| <- medio
|    2.0|    (2,[],[])| <- alto
+-------+-------------+

Il bucket RPM “alto” è il livello di riferimento e non ha una dummy.

Machine Learning con PySpark

Modello con RPM raggruppati

regression.coefficients
DenseVector([1.3814, 0.1433])
+-------+-------------+
|rpm_bin|    rpm_dummy|
+-------+-------------+
|    0.0|(2,[0],[1.0])| <- basso
|    1.0|(2,[1],[1.0])| <- medio
|    2.0|    (2,[],[])| <- alto
+-------+-------------+
regression.intercept
8.1835

Consumo per RPM “basso”:

8.1835 + 1.3814 = 9.5649

Consumo per RPM “medio”:

8.1835 + 0.1433 = 8.3268
Machine Learning con PySpark

Altra feature engineering

Operazioni su una singola colonna:

  • log()
  • sqrt()
  • pow()

Operazioni su due colonne:

  • prodotto
  • rapporto.
Machine Learning con PySpark

Massa e altezza in BMI

Un istogramma delle altezze

Un istogramma delle masse

Machine Learning con PySpark

Massa e altezza in BMI

Un istogramma del BMI

+------+-----+----+
|height| mass| bmi|    bmi = mass / height^2
+------+-----+----+
|  1.52| 77.1|33.2|
|  1.60| 58.1|22.7|
|  1.57|122.0|49.4|
|  1.75| 95.3|31.0|
|  1.80| 99.8|30.7|
|  1.65| 90.7|33.3|
|  1.60| 70.3|27.5|
|  1.78| 81.6|25.8|
|  1.65| 77.1|28.3|
|  1.78|128.0|40.5|
+------+-----+----+
Machine Learning con PySpark

Engineering della densità

cars = cars.withColumn('density_line', cars.mass / cars.length)       # Linear density
cars = cars.withColumn('density_quad', cars.mass / cars.length**2)    # Area density
cars = cars.withColumn('density_cube', cars.mass / cars.length**3)    # Volume density
+------+------+------------+------------+------------+
|  mass|length|density_line|density_quad|density_cube|
+------+------+------------+------------+------------+
|1451.0| 4.775|303.87434554|63.638606397|13.327456837|
|1129.0| 4.623|244.21371403|52.825808790|11.426737787|
|1399.0| 4.547|307.67539036|67.665579583|14.881367843|
+------+------+------------+------------+------------+
Machine Learning con PySpark

Creiamo qualche feature!

Machine Learning con PySpark

Preparing Video For Download...