Datavalidatie

Data opschonen met PySpark

Mike Metzger

Data Engineering Consultant

Definitie

Validatie is:

  • Controleren of een dataset het verwachte formaat volgt
  • Aantal rijen/kolommen
  • Datatypen
  • Complexe validatieregels
Data opschonen met PySpark

Validatie via joins

  • Vergelijkt data met bekende waarden
  • Maakt het makkelijk om data in een set te vinden
  • Relatief snel
parsed_df = spark.read.parquet('parsed_data.parquet')
company_df = spark.read.parquet('companies.parquet')
verified_df = parsed_df.join(company_df, parsed_df.company == company_df.company)

Dit verwijdert automatisch rijen met een bedrijf dat niet in valid_df staat!

Data opschonen met PySpark

Validatie met complexe regels

Spark-componenten gebruiken om logica te valideren:

  • Berekeningen
  • Controleren met externe bron
  • Gebruikt waarschijnlijk een UDF om de DataFrame te wijzigen/controleren
Data opschonen met PySpark

Laten we oefenen!

Data opschonen met PySpark

Preparing Video For Download...