Veri Hazırlama

PySpark ile Machine Learning

Andrew Collier

Data Scientist, Fathom Data

Tüm bu sütunlara gerek var mı?

+-----+-------+-------+------+----+----+------+------+----+-----------+
|maker|  model| origin|  type| cyl|size|weight|length| rpm|consumption|
+-----+-------+-------+------+----+----+------+------+----+-----------+
|Mazda|   RX-7|non-USA|Sporty|null| 1.3|  2895| 169.0|6500|       9.41|
|  Geo|  Metro|non-USA| Small|   3| 1.0|  1695| 151.0|5700|        4.7|
| Ford|Festiva|    USA| Small|   4| 1.3|  1845| 141.0|5000|       7.13|
+-----+-------+-------+------+----+----+------+------+----+-----------+

maker ve model alanlarını kaldırın.

PySpark ile Machine Learning

Sütunları kaldırma

# İstemediğiniz sütunları düşürün...
cars = cars.drop('maker', 'model')

# ... veya tutmak istediklerinizi seçin. cars = cars.select('origin', 'type', 'cyl', 'size', 'weight', 'length', 'rpm', 'consumption')
+-------+------+----+----+------+------+----+-----------+
| origin|  type| cyl|size|weight|length| rpm|consumption|
+-------+------+----+----+------+------+----+-----------+
|non-USA|Sporty|null| 1.3|  2895| 169.0|6500|       9.41|
|non-USA| Small|   3| 1.0|  1695| 151.0|5700|        4.7|
|    USA| Small|   4| 1.3|  1845| 141.0|5000|       7.13|
+-------+------+----+----+------+------+----+-----------+
PySpark ile Machine Learning

Eksik veriyi filtreleme

# Kaç eksik değer var?
cars.filter('cyl IS NULL').count()
1

cylinders sütununda eksik değeri olan kayıtları kaldırın.

cars = cars.filter('cyl IS NOT NULL')

Eksik değeri olan tüm kayıtları kaldırın.

cars = cars.dropna()
PySpark ile Machine Learning

Sütunları dönüştürme

from pyspark.sql.functions import round

# Yeni bir 'mass' sütunu oluşturun
cars = cars.withColumn('mass', round(cars.weight / 2.205, 0))

# Uzunluğu metreye çevirin cars = cars.withColumn('length', round(cars.length * 0.0254, 3))
+-------+-----+---+----+------+------+----+-----------+-----+
| origin| type|cyl|size|weight|length| rpm|consumption| mass|
+-------+-----+---+----+------+------+----+-----------+-----+
|non-USA|Small|  3| 1.0|  1695| 3.835|5700|        4.7|769.0|
|    USA|Small|  4| 1.3|  1845| 3.581|5000|       7.13|837.0|
|non-USA|Small|  3| 1.3|  1965| 4.089|6000|       5.47|891.0|
+-------+-----+---+----+------+------+----+-----------+-----+
PySpark ile Machine Learning

Kategorik veriyi indeksleme

from pyspark.ml.feature import StringIndexer

indexer = StringIndexer(inputCol='type',
                        outputCol='type_idx')

# Dizgelere indeks değerleri atayın indexer = indexer.fit(cars)
# İndeks değerleriyle sütun oluşturun cars = indexer.transform(cars)

Sırayı değiştirmek için stringOrderType kullanın.

+-------+--------+
|   type|type_idx|
+-------+--------+
|Midsize|     0.0| <- en sık değer
|  Small|     1.0|
|Compact|     2.0|
| Sporty|     3.0|
|  Large|     4.0|
|    Van|     5.0| <- en az sık değer
+-------+--------+
PySpark ile Machine Learning

Menşe ülkesini indeksleme

# Menşe ülkesini indeksleyin:
#
# USA     -> 0
# non-USA -> 1
#
cars = StringIndexer(
  inputCol="origin",
  outputCol="label"
).fit(cars).transform(cars)
+-------+-----+
| origin|label|
+-------+-----+
|    USA|  0.0|
|non-USA|  1.0|
+-------+-----+
PySpark ile Machine Learning

Sütunları birleştirme

Veriyi dönüştürmek için bir vektör birleştirici kullanın.

from pyspark.ml.feature import VectorAssembler

assembler = VectorAssembler(inputCols=['cyl', 'size'], outputCol='features')

assembler.transform(cars)
+---+----+---------+
|cyl|size| features|
+---+----+---------+
|  3| 1.0|[3.0,1.0]|
|  4| 1.3|[4.0,1.3]|
|  3| 1.3|[3.0,1.3]|
+---+----+---------+
PySpark ile Machine Learning

Ayo berlatih!

PySpark ile Machine Learning

Preparing Video For Download...