Visualisasi Data di PySpark dengan DataFrame

Fundamental Big Data dengan PySpark

Upendra Devisetty

Science Analyst, CyVerse

Apa itu visualisasi data?

Visualisasi data merepresentasikan data dalam grafik/diagram
Alat plotting open source di Python:
- Matplotlib, Seaborn, Bokeh, dll.
Plot grafik dari PySpark DataFrame dengan tiga metode
- Pustaka pyspark_dist_explore
- toPandas()
- Pustaka HandySpark

test_df = spark.read.csv("test.csv", header=True, inferSchema=True)

test_df_age = test_df.select('Age')

hist(test_df_age, bins=20, color="red")

test_df = spark.read.csv("test.csv", header=True, inferSchema=True)

test_df_sample_pandas = test_df.toPandas()

test_df_sample_pandas.hist('Age')

pandas DataFrame berada di memori pada satu server; operasi PySpark berjalan paralel
Hasil di pandas dieksekusi segera; di PySpark DataFrame dievaluasi secara lazy
pandas DataFrame mutable; PySpark DataFrame immutable
API pandas mendukung lebih banyak operasi dibanding API PySpark DataFrame

HandySpark adalah paket untuk meningkatkan pengalaman pengguna PySpark
- Pengambilan data mudah
- Komputasi terdistribusi tetap dipertahankan

test_df = spark.read.csv('test.csv', header=True, inferSchema=True)

hdf = test_df.toHandy()

hdf.cols["Age"].hist()

Fundamental Big Data dengan PySpark