Introductie tot datacleaning met Apache Spark

Data opschonen met PySpark

Mike Metzger

Data Engineering Consultant

Wat is datacleaning?

Datacleaning: ruwe data klaarzetten voor gebruik in datapijplijnen.

Mogelijke taken bij datacleaning:

  • Tekst herformatteren of vervangen
  • Berekeningen uitvoeren
  • Rommel of onvolledige data verwijderen
Data opschonen met PySpark

Waarom datacleaning met Spark?

Problemen met typische datasystemen:

  • Performance
  • Datastromen organiseren

Voordelen van Spark:

  • Schaalbaar
  • Krachtig framework voor dataverwerking
Data opschonen met PySpark

Voorbeeld van datacleaning

Ruwe data:

name age (years) city
Smith, John 37 Dallas
Wilson, A. 59 Chicago
null 215

Opgeschoonde data:

last name first name age (months) state
Smith John 444 TX
Wilson A. 708 IL
Data opschonen met PySpark

Spark-schema's

  • Bepaalt het formaat van een DataFrame
  • Kan verschillende datatypes bevatten:
    • Strings, datums, integers, arrays
  • Kan rommeldata filteren bij import
  • Verbetert leesperformance
Data opschonen met PySpark

Voorbeeld van een Spark-schema

Schema importeren

import pyspark.sql.types
peopleSchema = StructType([
  # Define the name field
  StructField('name', StringType(), True),
  # Add the age field
  StructField('age', IntegerType(), True),
  # Add the city field
  StructField('city', StringType(), True)  
])

CSV met data lezen

people_df = spark.read.format('csv').load(name='rawdata.csv', schema=peopleSchema)
Data opschonen met PySpark

Laten we oefenen!

Data opschonen met PySpark

Preparing Video For Download...