Pengelompokan & Rekayasa

Machine Learning dengan PySpark

Andrew Collier

Data Scientist, Fathom Data

Pengelompokan (Bucketing)

Mengelompokkan data kontinu ke dalam bucket

Machine Learning dengan PySpark

Pengelompokan tinggi

Histogram tinggi

+------+
|height|
+------+
|  1.42|
|  1.45|
|  1.47|
|  1.50|
|  1.52|
|  1.57|
|  1.60|
|  1.75|
|  1.85|
|  1.88|
+------+
Machine Learning dengan PySpark

Pengelompokan tinggi

Histogram tinggi dengan rentang

+------+
|height|
+------+
|  1.42|
|  1.45|
|  1.47|
|  1.50|
|  1.52|
|  1.57|
|  1.60|
|  1.75|
|  1.85|
|  1.88|
+------+
Machine Learning dengan PySpark

Pengelompokan tinggi

Histogram tinggi dengan rentang dan label

+------+
|height|
+------+
|  1.42|
|  1.45|
|  1.47|
|  1.50|
|  1.52|
|  1.57|
|  1.60|
|  1.75|
|  1.85|
|  1.88|
+------+
Machine Learning dengan PySpark

Pengelompokan tinggi

Histogram tinggi dengan rentang dan label

+------+----------+
|height|height_bin|
+------+----------+
|  1.42|     short|
|  1.45|     short|
|  1.47|     short|
|  1.50|     short|
|  1.52|   average|
|  1.57|   average|
|  1.60|   average|
|  1.75|   average|
|  1.85|      tall|
|  1.88|      tall|
+------+----------+
Machine Learning dengan PySpark

Histogram RPM

RPM mobil punya batas "alami":

  • $\text{RPM} < 4500$ — rendah
  • $\text{RPM} > 6000$ — tinggi
  • selain itu — sedang.

Histogram RPM dengan rentang dan label

Machine Learning dengan PySpark

Bucket RPM

from pyspark.ml.feature import Bucketizer

bucketizer = Bucketizer(splits=[3500, 4500, 6000, 6500],
                        inputCol="rpm",
                        outputCol="rpm_bin")

Terapkan bucket ke kolom rpm.

bucketed = bucketizer.transform(cars)
Machine Learning dengan PySpark

Bucket RPM

bucketed.select('rpm', 'rpm_bin').show(5)
+----+-------+
| rpm|rpm_bin|
+----+-------+
|3800|    0.0|
|4500|    1.0|
|5750|    1.0|
|5300|    1.0|
|6200|    2.0|
+----+-------+
bucketed.groupBy('rpm_bin').count().show()
+-------+-----+
|rpm_bin|count|
+-------+-----+
|    0.0|    8| <- rendah
|    1.0|   67| <- sedang
|    2.0|   17| <- tinggi
+-------+-----+
Machine Learning dengan PySpark

One-hot untuk bucket RPM

Bucket RPM di-one-hot menjadi variabel dummy.

+-------+-------------+
|rpm_bin|    rpm_dummy|
+-------+-------------+
|    0.0|(2,[0],[1.0])| <- rendah
|    1.0|(2,[1],[1.0])| <- sedang
|    2.0|    (2,[],[])| <- tinggi
+-------+-------------+

Bucket RPM 'tinggi' adalah level referensi dan tidak mendapat variabel dummy.

Machine Learning dengan PySpark

Model dengan RPM terkelompok

regression.coefficients
DenseVector([1.3814, 0.1433])
+-------+-------------+
|rpm_bin|    rpm_dummy|
+-------+-------------+
|    0.0|(2,[0],[1.0])| <- rendah
|    1.0|(2,[1],[1.0])| <- sedang
|    2.0|    (2,[],[])| <- tinggi
+-------+-------------+
regression.intercept
8.1835

Konsumsi untuk RPM 'rendah':

8.1835 + 1.3814 = 9.5649

Konsumsi untuk RPM 'sedang':

8.1835 + 0.1433 = 8.3268
Machine Learning dengan PySpark

Rekayasa fitur lanjutan

Operasi pada satu kolom:

  • log()
  • sqrt()
  • pow()

Operasi pada dua kolom:

  • produk
  • rasio.
Machine Learning dengan PySpark

Massa & Tinggi ke BMI

Histogram tinggi

Histogram massa

Machine Learning dengan PySpark

Massa & Tinggi ke BMI

Histogram BMI

+------+-----+----+
|height| mass| bmi|    bmi = mass / height^2
+------+-----+----+
|  1.52| 77.1|33.2|
|  1.60| 58.1|22.7|
|  1.57|122.0|49.4|
|  1.75| 95.3|31.0|
|  1.80| 99.8|30.7|
|  1.65| 90.7|33.3|
|  1.60| 70.3|27.5|
|  1.78| 81.6|25.8|
|  1.65| 77.1|28.3|
|  1.78|128.0|40.5|
+------+-----+----+
Machine Learning dengan PySpark

Rekayasa kerapatan

cars = cars.withColumn('density_line', cars.mass / cars.length)       # Linear density
cars = cars.withColumn('density_quad', cars.mass / cars.length**2)    # Area density
cars = cars.withColumn('density_cube', cars.mass / cars.length**3)    # Volume density
+------+------+------------+------------+------------+
|  mass|length|density_line|density_quad|density_cube|
+------+------+------------+------------+------------+
|1451.0| 4.775|303.87434554|63.638606397|13.327456837|
|1129.0| 4.623|244.21371403|52.825808790|11.426737787|
|1399.0| 4.547|307.67539036|67.665579583|14.881367843|
+------+------+------------+------------+------------+
Machine Learning dengan PySpark

Mari rekayasa beberapa fitur!

Machine Learning dengan PySpark

Preparing Video For Download...