PySpark ile Veri Temizleme
Mike Metzger
Data Engineering Consultant
Spark Kümeleri iki tür süreçten oluşur
Önemli parametreler:
airport_df = spark.read.csv('airports-*.txt.gz')
İyi tanımlanmış bir şema içe aktarma performansını ciddi ölçüde artırır
split -l 10000 -d largefile chunk-
df_csv = spark.read.csv('singlelargefile.csv')
df_csv.write.parquet('data.parquet')
df = spark.read.parquet('data.parquet')
PySpark ile Veri Temizleme