Big Data Fundamentals met PySpark
Upendra Devisetty
Science Analyst, CyVerse
Datavisualisatie zet je data om in grafieken of diagrammen
Open-source plottools voor visualisatie in Python:
Grafieken maken met PySpark DataFrames kan op drie manieren
pyspark_dist_explore-library
toPandas()
HandySpark-library
De Pyspark_dist_explore-library geeft snel inzicht in DataFrames
Momenteel drie functies: hist(), distplot() en pandas_histogram()
test_df = spark.read.csv("test.csv", header=True, inferSchema=True)
test_df_age = test_df.select('Age')
hist(test_df_age, bins=20, color="red")
test_df = spark.read.csv("test.csv", header=True, inferSchema=True)
test_df_sample_pandas = test_df.toPandas()
test_df_sample_pandas.hist('Age')
toPandas() niet aan te radenPandas-DataFrames staan in het geheugen op één server; PySpark-operaties draaien parallel
In Pandas krijg je direct resultaat; PySpark DataFrame gebruikt lazy evaluation
Pandas DataFrame is mutable; PySpark DataFrames zijn immutable
De Pandas-API biedt meer operaties dan de PySpark DataFrame-API
test_df = spark.read.csv('test.csv', header=True, inferSchema=True)
hdf = test_df.toHandy()
hdf.cols["Age"].hist()
Big Data Fundamentals met PySpark