Caching

Introductie tot Spark SQL in Python

Mark Plutowski

Data Scientist

Wat is caching?

Data in geheugen houden
Spark leegt geheugen vaak agressief

Evictiebeleid

Least Recently Used (LRU)
Verwijderen gebeurt per worker afzonderlijk
Hangt af van het geheugen van elke worker

Een dataframe cachen

Een dataframe cachen:

df.cache()

Cache verwijderen:

df.unpersist()

Controleren of een dataframe is gecachet

df.is_cached

False

df.cache()
df.is_cached

True

Cache van een dataframe verwijderen

df.unpersist()
df.is_cached()

False

Opslagniveau

df.unpersist()
df.cache()
df.storageLevel

StorageLevel(True, True, False, True, 1)

In het bovenstaande opslagniveau geldt:

useDisk = True
useMemory = True
useOffHeap = False
deserialized = True
replication = 1

Een dataframe persisteren

Het volgende is equivalent in Spark 2.1+:

df.persist()
df.persist(storageLevel=pyspark.StorageLevel.MEMORY_AND_DISK)
df.cache() is hetzelfde als df.persist()

Een tabel cachen

df.createOrReplaceTempView('df')
spark.catalog.isCached(tableName='df')

False

spark.catalog.cacheTable('df')
spark.catalog.isCached(tableName='df')

True

Cache van een tabel verwijderen

spark.catalog.uncacheTable('df')
spark.catalog.isCached(tableName='df')

False

spark.catalog.clearCache()

Tips

Caching is lui
Cache alleen als je meer dan één bewerking doet
Unpersist als je het object niet meer nodig hebt
Cache selectief

Laten we oefenen!

Introductie tot Spark SQL in Python

Preparing Video For Download...