Caching

Data opschonen met PySpark

Mike Metzger

Data Engineering Consultant

Wat is caching?

Caching in Spark:

Tijdens het bouwen van Spark-taken:

Roep .cache() aan op de DataFrame vóór een actie

voter_df = spark.read.csv('voter_data.txt.gz')
voter_df.cache().count()

voter_df = voter_df.withColumn('ID', monotonically_increasing_id())
voter_df = voter_df.cache()
voter_df.show()

Controleer .is_cached om de cachestatus te zien

print(voter_df.is_cached)

True

Roep .unpersist() aan als je klaar bent met de DataFrame

voter_df.unpersist()

Data opschonen met PySpark