Datenvisualisierung in PySpark mit DataFrames

Grundlagen von Big Data mit PySpark

Upendra Devisetty

Science Analyst, CyVerse

Was ist Datenvisualisierung?

Datenvisualisierung stellt Daten in Grafiken oder Diagrammen dar
Open-Source-Plot-Tools für Python:
- Matplotlib, Seaborn, Bokeh etc.
Diagramme mit PySpark-DataFrames auf drei Arten
- pyspark_dist_explore-Bibliothek
- toPandas()
- HandySpark-Bibliothek

test_df = spark.read.csv("test.csv", header=True, inferSchema=True)

test_df_age = test_df.select('Age')

hist(test_df_age, bins=20, color="red")

test_df = spark.read.csv("test.csv", header=True, inferSchema=True)

test_df_sample_pandas = test_df.toPandas()

test_df_sample_pandas.hist('Age')

Pandas-DataFrames sind In-Memory, auf einem Server; PySpark-Operationen laufen parallel
In Pandas wird das Ergebnis sofort berechnet; in PySpark sind DataFrame-Operationen lazy
Pandas-DataFrames sind veränderlich, PySpark-DataFrames unveränderlich
Die Pandas-API bietet mehr Funktionen als die PySpark-DataFrame-API

HandySpark ist ein Paket zur Verbesserung der PySpark-User Experience
- Einfaches Datenholen
- Verteilte Berechnung bleibt erhalten

test_df = spark.read.csv('test.csv', header=True, inferSchema=True)

hdf = test_df.toHandy()

hdf.cols["Age"].hist()

Grundlagen von Big Data mit PySpark