Datavisualisatie in PySpark met DataFrames

Big Data Fundamentals met PySpark

Upendra Devisetty

Science Analyst, CyVerse

Wat is datavisualisatie?

Datavisualisatie zet je data om in grafieken of diagrammen
Open-source plottools voor visualisatie in Python:
- Matplotlib, Seaborn, Bokeh, enz.
Grafieken maken met PySpark DataFrames kan op drie manieren
- pyspark_dist_explore-library
- toPandas()
- HandySpark-library

test_df = spark.read.csv("test.csv", header=True, inferSchema=True)

test_df_age = test_df.select('Age')

hist(test_df_age, bins=20, color="red")

test_df = spark.read.csv("test.csv", header=True, inferSchema=True)

test_df_sample_pandas = test_df.toPandas()

test_df_sample_pandas.hist('Age')

Pandas-DataFrames staan in het geheugen op één server; PySpark-operaties draaien parallel
In Pandas krijg je direct resultaat; PySpark DataFrame gebruikt lazy evaluation
Pandas DataFrame is mutable; PySpark DataFrames zijn immutable
De Pandas-API biedt meer operaties dan de PySpark DataFrame-API

HandySpark is een package dat de PySpark-gebruikerservaring verbetert
- Makkelijk data ophalen
- Gedistribueerde berekening blijft behouden

test_df = spark.read.csv('test.csv', header=True, inferSchema=True)

hdf = test_df.toHandy()

hdf.cols["Age"].hist()

Big Data Fundamentals met PySpark