Spark UI

Python ile Spark SQL'e Giriş

Mark Plutowski

Data Scientist

Yürütmeyi incelemek için Spark UI'ı kullanın

  • Spark Görevi (Task) tek bir CPU'da çalışan yürütme birimidir

  • Spark Aşaması (Stage) aynı hesabı paralel yapan görev grubudur; her görev genelde verinin farklı bir alt kümesinde çalışır

  • Spark İşi (Job) bir eylemle tetiklenen ve bir veya daha çok aşamaya bölünen hesaptır.

Python ile Spark SQL'e Giriş

Spark UI'ı bulma

  1. http://[DRIVER_HOST]:4040
  2. http://[DRIVER_HOST]:4041
  3. http://[DRIVER_HOST]:4042
  4. http://[DRIVER_HOST]:4043
    ...
Python ile Spark SQL'e Giriş

Python ile Spark SQL'e Giriş

Python ile Spark SQL'e Giriş

Python ile Spark SQL'e Giriş

Spark katalog işlemleri

  • spark.catalog.cacheTable('table1')
  • spark.catalog.uncacheTable('table1')
  • spark.catalog.isCached('table1')
  • spark.catalog.dropTempView('table1')
Python ile Spark SQL'e Giriş

Spark Kataloğu

spark.catalog.listTables()
[Table(name='text', database=None, description=None, tableType='TEMPORARY', isTemporary=True)]
Python ile Spark SQL'e Giriş

Python ile Spark SQL'e Giriş

Python ile Spark SQL'e Giriş

Spark UI Storage sekmesi

Veri bölümlerinin nerede olduğunu gösterir

  • bellekte,
  • diskte,
  • küme genelinde,
  • belirli bir anda.
Python ile Spark SQL'e Giriş

Spark UI SQL sekmesi

query3agg = """
SELECT w1, w2, w3, COUNT(*) as count FROM (
   SELECT 
   word AS w1,
   LEAD(word,1) OVER(PARTITION BY part ORDER BY id ) AS w2,
   LEAD(word,2) OVER(PARTITION BY part ORDER BY id ) AS w3
   FROM df
)
GROUP BY w1, w2, w3 
ORDER BY count DESC
""" 

spark.sql(query3agg).show()
Python ile Spark SQL'e Giriş

Python ile Spark SQL'e Giriş

Python ile Spark SQL'e Giriş

Python ile Spark SQL'e Giriş

Python ile Spark SQL'e Giriş

Ayo berlatih!

Python ile Spark SQL'e Giriş

Preparing Video For Download...