PySpark'ta DataFrame'lerle Veri Görselleştirme

PySpark ile Big Data Temelleri

Upendra Devisetty

Science Analyst, CyVerse

Veri görselleştirme nedir?

Veri görselleştirme, veriyi grafik ve çizelgelerle sunmaktır
Python'da açık kaynak çizim araçları:
- Matplotlib, Seaborn, Bokeh vb.
PySpark DataFrame'leriyle grafik çizmenin üç yolu vardır
- pyspark_dist_explore kütüphanesi
- toPandas()
- HandySpark kütüphanesi

test_df = spark.read.csv("test.csv", header=True, inferSchema=True)

test_df_age = test_df.select('Age')

hist(test_df_age, bins=20, color="red")

test_df = spark.read.csv("test.csv", header=True, inferSchema=True)

test_df_sample_pandas = test_df.toPandas()

test_df_sample_pandas.hist('Age')

pandas DataFrame'leri bellekte, tek sunucuya dayalıdır; PySpark işlemleri paraleldir
pandas'ta işlemi uyguladıkça sonuç oluşur; PySpark DataFrame işlemleri tembel değerlendirmedir
pandas DataFrame değiştirilebilir, PySpark DataFrame'leri değiştirilemez
pandas API, PySpark DataFrame API'dan daha fazla işlem destekler

HandySpark, PySpark kullanımını iyileştirmek için tasarlanmış bir pakettir
- Kolay veri çekme
- Dağıtık hesaplama korunur

test_df = spark.read.csv('test.csv', header=True, inferSchema=True)

hdf = test_df.toHandy()

hdf.cols["Age"].hist()

PySpark ile Big Data Temelleri