Data opschonen met PySpark
Mike Metzger
Data Engineering Consultant
Datacleaning: ruwe data klaarzetten voor gebruik in datapijplijnen.
Mogelijke taken bij datacleaning:
Problemen met typische datasystemen:
Voordelen van Spark:
Ruwe data:
| name | age (years) | city |
|---|---|---|
| Smith, John | 37 | Dallas |
| Wilson, A. | 59 | Chicago |
| null | 215 |
Opgeschoonde data:
| last name | first name | age (months) | state |
|---|---|---|---|
| Smith | John | 444 | TX |
| Wilson | A. | 708 | IL |
Schema importeren
import pyspark.sql.types
peopleSchema = StructType([
# Define the name field
StructField('name', StringType(), True),
# Add the age field
StructField('age', IntegerType(), True),
# Add the city field
StructField('city', StringType(), True)
])
CSV met data lezen
people_df = spark.read.format('csv').load(name='rawdata.csv', schema=peopleSchema)
Data opschonen met PySpark