Data opschonen met PySpark
Mike Metzger
Data Engineering Consultant
Caching in Spark:
Tijdens het bouwen van Spark-taken:
Roep .cache() aan op de DataFrame vóór een actie
voter_df = spark.read.csv('voter_data.txt.gz')
voter_df.cache().count()
voter_df = voter_df.withColumn('ID', monotonically_increasing_id())
voter_df = voter_df.cache()
voter_df.show()
Controleer .is_cached om de cachestatus te zien
print(voter_df.is_cached)
True
Roep .unpersist() aan als je klaar bent met de DataFrame
voter_df.unpersist()
Data opschonen met PySpark