PySpark ile Veri Temizleme
Mike Metzger
Data Engineering Consultant
Veri Temizleme: Ham veriyi veri işleme hatlarında kullanılmak üzere hazırlama.
Veri temizlemede olası görevler:
Tipik veri sistemlerindeki sorunlar:
Spark’ın avantajları:
Ham veri:
| name | age (years) | city |
|---|---|---|
| Smith, John | 37 | Dallas |
| Wilson, A. | 59 | Chicago |
| null | 215 |
Temizlenmiş veri:
| last name | first name | age (months) | state |
|---|---|---|---|
| Smith | John | 444 | TX |
| Wilson | A. | 708 | IL |
Şemayı içe aktarın
import pyspark.sql.types
peopleSchema = StructType([
# Define the name field
StructField('name', StringType(), True),
# Add the age field
StructField('age', IntegerType(), True),
# Add the city field
StructField('city', StringType(), True)
])
Veri içeren CSV dosyasını okuyun
people_df = spark.read.format('csv').load(name='rawdata.csv', schema=peopleSchema)
PySpark ile Veri Temizleme