PySpark'ta DataFrame'lerle Veri Görselleştirme

PySpark ile Big Data Temelleri

Upendra Devisetty

Science Analyst, CyVerse

Veri görselleştirme nedir?

  • Veri görselleştirme, veriyi grafik ve çizelgelerle sunmaktır

  • Python'da açık kaynak çizim araçları:

    • Matplotlib, Seaborn, Bokeh vb.
  • PySpark DataFrame'leriyle grafik çizmenin üç yolu vardır

    • pyspark_dist_explore kütüphanesi

    • toPandas()

    • HandySpark kütüphanesi

PySpark ile Big Data Temelleri

Pyspark_dist_explore ile görselleştirme

  • Pyspark_dist_explore DataFrame'lere hızlı içgörüler sağlar

  • Şu an üç işlev vardır: hist(), distplot() ve pandas_histogram()

test_df = spark.read.csv("test.csv", header=True, inferSchema=True)
test_df_age = test_df.select('Age')
hist(test_df_age, bins=20, color="red")
PySpark ile Big Data Temelleri

DataFrame çizimleri için Pandas kullanma

  • pandas DataFrame'lerinden grafik üretmek kolaydır
test_df = spark.read.csv("test.csv", header=True, inferSchema=True)
test_df_sample_pandas = test_df.toPandas()
test_df_sample_pandas.hist('Age')
  • Not: Veri çok büyükse toPandas() kullanmanız önerilmez
PySpark ile Big Data Temelleri

pandas DataFrame vs PySpark DataFrame

  • pandas DataFrame'leri bellekte, tek sunucuya dayalıdır; PySpark işlemleri paraleldir

  • pandas'ta işlemi uyguladıkça sonuç oluşur; PySpark DataFrame işlemleri tembel değerlendirmedir

  • pandas DataFrame değiştirilebilir, PySpark DataFrame'leri değiştirilemez

  • pandas API, PySpark DataFrame API'dan daha fazla işlem destekler

PySpark ile Big Data Temelleri

HandySpark ile görselleştirme yöntemi

  • HandySpark, PySpark kullanımını iyileştirmek için tasarlanmış bir pakettir
    • Kolay veri çekme
    • Dağıtık hesaplama korunur
test_df = spark.read.csv('test.csv', header=True, inferSchema=True)
hdf = test_df.toHandy()
hdf.cols["Age"].hist()
PySpark ile Big Data Temelleri

DataFrame'leri görselleştirelim

PySpark ile Big Data Temelleri

Preparing Video For Download...