PySpark ile Veri Temizleme
Mike Metzger
Data Engineering Consultant
Doğrulama şunlardır:
parsed_df = spark.read.parquet('parsed_data.parquet')
company_df = spark.read.parquet('companies.parquet')
verified_df = parsed_df.join(company_df, parsed_df.company == company_df.company)
Bu, valid_df içinde olmayan şirketlere sahip satırları otomatik olarak kaldırır!
Mantığı doğrulamak için Spark bileşenlerini kullanma:
PySpark ile Veri Temizleme