Pengantar Spark SQL dalam Python
Mark Plutowski
Data Scientist
Spark Task adalah unit eksekusi yang berjalan pada satu CPU
Spark Stage adalah grup task yang melakukan komputasi yang sama secara paralel, tiap task biasanya berjalan pada subset data yang berbeda
Spark Job adalah komputasi yang dipicu oleh sebuah action, dipecah menjadi satu atau lebih stage.



spark.catalog.cacheTable('table1')spark.catalog.uncacheTable('table1')spark.catalog.isCached('table1')spark.catalog.dropTempView('table1')spark.catalog.listTables()
[Table(name='text', database=None, description=None, tableType='TEMPORARY', isTemporary=True)]


Menampilkan lokasi partisi data
query3agg = """ SELECT w1, w2, w3, COUNT(*) as count FROM ( SELECT word AS w1, LEAD(word,1) OVER(PARTITION BY part ORDER BY id ) AS w2, LEAD(word,2) OVER(PARTITION BY part ORDER BY id ) AS w3 FROM df ) GROUP BY w1, w2, w3 ORDER BY count DESC """spark.sql(query3agg).show()




Pengantar Spark SQL dalam Python