Data opschonen met PySpark
Mike Metzger
Data Engineering Consultant
Validatie is:
parsed_df = spark.read.parquet('parsed_data.parquet')
company_df = spark.read.parquet('companies.parquet')
verified_df = parsed_df.join(company_df, parsed_df.company == company_df.company)
Dit verwijdert automatisch rijen met een bedrijf dat niet in valid_df staat!
Spark-componenten gebruiken om logica te valideren:
Data opschonen met PySpark