Önbellekleme

Python ile Spark SQL'e Giriş

Mark Plutowski

Data Scientist

Önbelleğe alma nedir?

Veriyi bellekte tutma
Spark belleği agresif biçimde boşaltma eğilimindedir

Tahliye politikası

En Son En Az Kullanılan (LRU)
Tahliye her işçi üzerinde bağımsızdır
Her işçideki kullanılabilir belleğe bağlıdır

Bir dataframe’i önbelleğe alma

Bir dataframe’i önbelleğe almak için:

df.cache()

Önbelleğini kaldırmak için:

df.unpersist()

Bir dataframe’in önbellekte olup olmadığını belirleme

df.is_cached

False

df.cache()
df.is_cached

True

Bir dataframe’in önbelleğini kaldırma

df.unpersist()
df.is_cached()

False

Depolama düzeyi

df.unpersist()
df.cache()
df.storageLevel

StorageLevel(True, True, False, True, 1)

Yukarıdaki depolama düzeyinde aşağıdakiler geçerlidir:

useDisk = True
useMemory = True
useOffHeap = False
deserialized = True
replication = 1

Bir dataframe’i kalıcılaştırma

Spark 2.1+ sürümünde aşağıdakiler eşdeğerdir:

df.persist()
df.persist(storageLevel=pyspark.StorageLevel.MEMORY_AND_DISK)
df.cache(), df.persist() ile aynıdır

Bir tabloyu önbelleğe alma

df.createOrReplaceTempView('df')
spark.catalog.isCached(tableName='df')

False

spark.catalog.cacheTable('df')
spark.catalog.isCached(tableName='df')

True

Bir tablonun önbelleğini kaldırma

spark.catalog.uncacheTable('df')
spark.catalog.isCached(tableName='df')

False

spark.catalog.clearCache()

İpuçları

Önbelleğe alma tembeldir
Yalnızca birden fazla işlem yapacaksanız önbelleğe alın
Nesneye ihtiyaç kalmadığında unpersist edin
Seçici önbelleğe alın

Hadi pratik yapalım

Python ile Spark SQL'e Giriş

Preparing Video For Download...