Fundamentos de big data con PySpark
Upendra Devisetty
Science Analyst, CyVerse
La visualización representa tus datos en gráficos o diagramas
Herramientas open source para visualizar en Python:
Hay tres formas de graficar DataFrames de PySpark
Biblioteca pyspark_dist_explore
toPandas()
Biblioteca HandySpark
La biblioteca Pyspark_dist_explore da insights rápidos de DataFrames
Actualmente hay tres funciones: hist(), distplot() y pandas_histogram()
test_df = spark.read.csv("test.csv", header=True, inferSchema=True)
test_df_age = test_df.select('Age')
hist(test_df_age, bins=20, color="red")
test_df = spark.read.csv("test.csv", header=True, inferSchema=True)
test_df_sample_pandas = test_df.toPandas()
test_df_sample_pandas.hist('Age')
toPandas()Los DataFrames de pandas son en memoria y de un solo servidor; en PySpark las operaciones corren en paralelo
En pandas el resultado se genera al aplicar la operación; en PySpark hay evaluación perezosa
Los DataFrames de pandas son mutables; los de PySpark son inmutables
La API de pandas tiene más operaciones que la de PySpark DataFrame
test_df = spark.read.csv('test.csv', header=True, inferSchema=True)
hdf = test_df.toHandy()
hdf.cols["Age"].hist()
Fundamentos de big data con PySpark