PySpark ile Big Data Temelleri
Upendra Devisetty
Science Analyst, CyVerse
Veri görselleştirme, veriyi grafik ve çizelgelerle sunmaktır
Python'da açık kaynak çizim araçları:
PySpark DataFrame'leriyle grafik çizmenin üç yolu vardır
pyspark_dist_explore kütüphanesi
toPandas()
HandySpark kütüphanesi
Pyspark_dist_explore DataFrame'lere hızlı içgörüler sağlar
Şu an üç işlev vardır: hist(), distplot() ve pandas_histogram()
test_df = spark.read.csv("test.csv", header=True, inferSchema=True)
test_df_age = test_df.select('Age')
hist(test_df_age, bins=20, color="red")
test_df = spark.read.csv("test.csv", header=True, inferSchema=True)
test_df_sample_pandas = test_df.toPandas()
test_df_sample_pandas.hist('Age')
toPandas() kullanmanız önerilmezpandas DataFrame'leri bellekte, tek sunucuya dayalıdır; PySpark işlemleri paraleldir
pandas'ta işlemi uyguladıkça sonuç oluşur; PySpark DataFrame işlemleri tembel değerlendirmedir
pandas DataFrame değiştirilebilir, PySpark DataFrame'leri değiştirilemez
pandas API, PySpark DataFrame API'dan daha fazla işlem destekler
test_df = spark.read.csv('test.csv', header=True, inferSchema=True)
hdf = test_df.toHandy()
hdf.cols["Age"].hist()
PySpark ile Big Data Temelleri