PySpark ile Veri Temizleme
Mike Metzger
Data Engineering Consultant
Spark'ta önbelleğe alma:
Spark görevleri geliştirirken:
Eylemden önce DataFrame üzerinde .cache() çağırın
voter_df = spark.read.csv('voter_data.txt.gz')
voter_df.cache().count()
voter_df = voter_df.withColumn('ID', monotonically_increasing_id())
voter_df = voter_df.cache()
voter_df.show()
Önbellek durumunu görmek için .is_cached kullanın
print(voter_df.is_cached)
True
DataFrame ile işiniz bitince .unpersist() çağırın
voter_df.unpersist()
PySpark ile Veri Temizleme