Veri doğrulama

PySpark ile Veri Temizleme

Mike Metzger

Data Engineering Consultant

Tanım

Doğrulama şunlardır:

  • Bir veri kümesinin beklenen formata uyduğunu doğrulama
  • Satır/sütun sayısı
  • Veri türleri
  • Karmaşık doğrulama kuralları
PySpark ile Veri Temizleme

Join ile doğrulama

  • Veriyi bilinen değerlere karşı karşılaştırır
  • Belirli bir kümede veriyi bulmayı kolaylaştırır
  • Nispeten hızlıdır
parsed_df = spark.read.parquet('parsed_data.parquet')
company_df = spark.read.parquet('companies.parquet')
verified_df = parsed_df.join(company_df, parsed_df.company == company_df.company)

Bu, valid_df içinde olmayan şirketlere sahip satırları otomatik olarak kaldırır!

PySpark ile Veri Temizleme

Karmaşık kural doğrulama

Mantığı doğrulamak için Spark bileşenlerini kullanma:

  • Hesaplamalar
  • Harici bir kaynağa karşı doğrulama
  • DataFrame'i değiştirmek/doğrulamak için genellikle bir UDF kullanır
PySpark ile Veri Temizleme

Hadi pratik yapalım!

PySpark ile Veri Temizleme

Preparing Video For Download...