Visualisation de données dans PySpark avec des DataFrames

Principes fondamentaux des mégadonnées avec PySpark

Upendra Devisetty

Science Analyst, CyVerse

Qu’est-ce que la visualisation de données ?

La visualisation de données représente vos données via des graphiques
Outils open source pour la visualisation en Python :
- Matplotlib, Seaborn, Bokeh, etc.
Trois méthodes pour tracer avec des DataFrames PySpark
- Bibliothèque pyspark_dist_explore
- toPandas()
- Bibliothèque HandySpark

test_df = spark.read.csv("test.csv", header=True, inferSchema=True)

test_df_age = test_df.select('Age')

hist(test_df_age, bins=20, color="red")

test_df = spark.read.csv("test.csv", header=True, inferSchema=True)

test_df_sample_pandas = test_df.toPandas()

test_df_sample_pandas.hist('Age')

Les DataFrames pandas sont en mémoire, sur un seul serveur ; PySpark exécute en parallèle
En pandas, le résultat est évalué immédiatement ; en PySpark, l’évaluation est paresseuse
Les DataFrames pandas sont mutables ; les DataFrames PySpark sont immuables
L’API pandas couvre plus d’opérations que l’API DataFrame PySpark

HandySpark est un package conçu pour améliorer l’expérience PySpark
- Récupération de données facile
- Calcul distribué conservé

test_df = spark.read.csv('test.csv', header=True, inferSchema=True)

hdf = test_df.toHandy()

hdf.cols["Age"].hist()

Principes fondamentaux des mégadonnées avec PySpark