Fundamentos de Big Data com PySpark
Upendra Devisetty
Science Analyst, CyVerse
Visualização de dados representa seus dados em gráficos ou tabelas
Ferramentas open source para plotar em Python:
Três jeitos de plotar com PySpark DataFrames
biblioteca pyspark_dist_explore
toPandas()
biblioteca HandySpark
A biblioteca Pyspark_dist_explore dá insights rápidos sobre DataFrames
Três funções disponíveis: hist(), distplot() e pandas_histogram()
test_df = spark.read.csv("test.csv", header=True, inferSchema=True)
test_df_age = test_df.select('Age')
hist(test_df_age, bins=20, color="red")
test_df = spark.read.csv("test.csv", header=True, inferSchema=True)
test_df_sample_pandas = test_df.toPandas()
test_df_sample_pandas.hist('Age')
toPandas()DataFrames do pandas ficam em memória, em um único servidor; operações no PySpark rodam em paralelo
Em pandas, o resultado sai assim que aplicamos a operação; no PySpark há avaliação preguiçosa (lazy)
DataFrame do pandas é mutável; PySpark DataFrames são imutáveis
A API do pandas tem mais operações que a API de DataFrame do PySpark
test_df = spark.read.csv('test.csv', header=True, inferSchema=True)
hdf = test_df.toHandy()
hdf.cols["Age"].hist()
Fundamentos de Big Data com PySpark