Introductie tot datacleaning met Apache Spark

Data opschonen met PySpark

Mike Metzger

Data Engineering Consultant

Wat is datacleaning?

Datacleaning: ruwe data klaarzetten voor gebruik in datapijplijnen.

Mogelijke taken bij datacleaning:

Tekst herformatteren of vervangen
Berekeningen uitvoeren
Rommel of onvolledige data verwijderen

Waarom datacleaning met Spark?

Problemen met typische datasystemen:

Performance
Datastromen organiseren

Voordelen van Spark:

Schaalbaar
Krachtig framework voor dataverwerking

Voorbeeld van datacleaning

Ruwe data:

name	age (years)	city
Smith, John	37	Dallas
Wilson, A.	59	Chicago
null	215

Opgeschoonde data:

last name	first name	age (months)	state
Smith	John	444	TX
Wilson	A.	708	IL

Spark-schema's

Bepaalt het formaat van een DataFrame
Kan verschillende datatypes bevatten:
- Strings, datums, integers, arrays
Kan rommeldata filteren bij import
Verbetert leesperformance

Voorbeeld van een Spark-schema

Schema importeren

import pyspark.sql.types
peopleSchema = StructType([
  # Define the name field
  StructField('name', StringType(), True),
  # Add the age field
  StructField('age', IntegerType(), True),
  # Add the city field
  StructField('city', StringType(), True)  
])

CSV met data lezen

people_df = spark.read.format('csv').load(name='rawdata.csv', schema=peopleSchema)

Laten we oefenen!

Data opschonen met PySpark