Fundamental Big Data dengan PySpark
Upendra Devisetty
Science Analyst, CyVerse
Visualisasi data merepresentasikan data dalam grafik/diagram
Alat plotting open source di Python:
Plot grafik dari PySpark DataFrame dengan tiga metode
Pustaka pyspark_dist_explore
toPandas()
Pustaka HandySpark
Pustaka Pyspark_dist_explore memberi insight cepat pada DataFrame
Tersedia tiga fungsi: hist(), distplot(), dan pandas_histogram()
test_df = spark.read.csv("test.csv", header=True, inferSchema=True)
test_df_age = test_df.select('Age')
hist(test_df_age, bins=20, color="red")
test_df = spark.read.csv("test.csv", header=True, inferSchema=True)
test_df_sample_pandas = test_df.toPandas()
test_df_sample_pandas.hist('Age')
toPandas() tidak direkomendasikanpandas DataFrame berada di memori pada satu server; operasi PySpark berjalan paralel
Hasil di pandas dieksekusi segera; di PySpark DataFrame dievaluasi secara lazy
pandas DataFrame mutable; PySpark DataFrame immutable
API pandas mendukung lebih banyak operasi dibanding API PySpark DataFrame
test_df = spark.read.csv('test.csv', header=True, inferSchema=True)
hdf = test_df.toHandy()
hdf.cols["Age"].hist()
Fundamental Big Data dengan PySpark