Grundlagen von Big Data mit PySpark
Upendra Devisetty
Science Analyst, CyVerse
Datenvisualisierung stellt Daten in Grafiken oder Diagrammen dar
Open-Source-Plot-Tools für Python:
Diagramme mit PySpark-DataFrames auf drei Arten
pyspark_dist_explore-Bibliothek
toPandas()
HandySpark-Bibliothek
Die Bibliothek Pyspark_dist_explore liefert schnelle Einblicke in DataFrames
Aktuell verfügbar: hist(), distplot() und pandas_histogram()
test_df = spark.read.csv("test.csv", header=True, inferSchema=True)
test_df_age = test_df.select('Age')
hist(test_df_age, bins=20, color="red")
test_df = spark.read.csv("test.csv", header=True, inferSchema=True)
test_df_sample_pandas = test_df.toPandas()
test_df_sample_pandas.hist('Age')
toPandas() nicht empfohlenPandas-DataFrames sind In-Memory, auf einem Server; PySpark-Operationen laufen parallel
In Pandas wird das Ergebnis sofort berechnet; in PySpark sind DataFrame-Operationen lazy
Pandas-DataFrames sind veränderlich, PySpark-DataFrames unveränderlich
Die Pandas-API bietet mehr Funktionen als die PySpark-DataFrame-API
test_df = spark.read.csv('test.csv', header=True, inferSchema=True)
hdf = test_df.toHandy()
hdf.cols["Age"].hist()
Grundlagen von Big Data mit PySpark