Visualisasi Data di PySpark dengan DataFrame

Fundamental Big Data dengan PySpark

Upendra Devisetty

Science Analyst, CyVerse

Apa itu visualisasi data?

  • Visualisasi data merepresentasikan data dalam grafik/diagram

  • Alat plotting open source di Python:

    • Matplotlib, Seaborn, Bokeh, dll.
  • Plot grafik dari PySpark DataFrame dengan tiga metode

    • Pustaka pyspark_dist_explore

    • toPandas()

    • Pustaka HandySpark

Fundamental Big Data dengan PySpark

Visualisasi data dengan Pyspark_dist_explore

  • Pustaka Pyspark_dist_explore memberi insight cepat pada DataFrame

  • Tersedia tiga fungsi: hist(), distplot(), dan pandas_histogram()

test_df = spark.read.csv("test.csv", header=True, inferSchema=True)
test_df_age = test_df.select('Age')
hist(test_df_age, bins=20, color="red")
Fundamental Big Data dengan PySpark

Menggunakan Pandas untuk membuat grafik DataFrame

  • Membuat grafik dari pandas DataFrame itu mudah
test_df = spark.read.csv("test.csv", header=True, inferSchema=True)
test_df_sample_pandas = test_df.toPandas()
test_df_sample_pandas.hist('Age')
  • Catatan: Untuk data berukuran besar, toPandas() tidak direkomendasikan
Fundamental Big Data dengan PySpark

pandas DataFrame vs PySpark DataFrame

  • pandas DataFrame berada di memori pada satu server; operasi PySpark berjalan paralel

  • Hasil di pandas dieksekusi segera; di PySpark DataFrame dievaluasi secara lazy

  • pandas DataFrame mutable; PySpark DataFrame immutable

  • API pandas mendukung lebih banyak operasi dibanding API PySpark DataFrame

Fundamental Big Data dengan PySpark

Visualisasi dengan HandySpark

  • HandySpark adalah paket untuk meningkatkan pengalaman pengguna PySpark
    • Pengambilan data mudah
    • Komputasi terdistribusi tetap dipertahankan
test_df = spark.read.csv('test.csv', header=True, inferSchema=True)
hdf = test_df.toHandy()
hdf.cols["Age"].hist()
Fundamental Big Data dengan PySpark

Mari memvisualisasikan DataFrame

Fundamental Big Data dengan PySpark

Preparing Video For Download...