Visualisation de données dans PySpark avec des DataFrames

Principes fondamentaux des mégadonnées avec PySpark

Upendra Devisetty

Science Analyst, CyVerse

Qu’est-ce que la visualisation de données ?

  • La visualisation de données représente vos données via des graphiques

  • Outils open source pour la visualisation en Python :

    • Matplotlib, Seaborn, Bokeh, etc.
  • Trois méthodes pour tracer avec des DataFrames PySpark

    • Bibliothèque pyspark_dist_explore

    • toPandas()

    • Bibliothèque HandySpark

Principes fondamentaux des mégadonnées avec PySpark

Visualisation avec Pyspark_dist_explore

  • La bibliothèque Pyspark_dist_explore donne vite un aperçu des DataFrames

  • Trois fonctions disponibles : hist(), distplot(), et pandas_histogram()

test_df = spark.read.csv("test.csv", header=True, inferSchema=True)
test_df_age = test_df.select('Age')
hist(test_df_age, bins=20, color="red")
Principes fondamentaux des mégadonnées avec PySpark

Utiliser pandas pour tracer des DataFrames

  • Il est simple de tracer depuis des DataFrames pandas
test_df = spark.read.csv("test.csv", header=True, inferSchema=True)
test_df_sample_pandas = test_df.toPandas()
test_df_sample_pandas.hist('Age')
  • Remarque : avec de gros volumes, éviter toPandas()
Principes fondamentaux des mégadonnées avec PySpark

DataFrame pandas vs DataFrame PySpark

  • Les DataFrames pandas sont en mémoire, sur un seul serveur ; PySpark exécute en parallèle

  • En pandas, le résultat est évalué immédiatement ; en PySpark, l’évaluation est paresseuse

  • Les DataFrames pandas sont mutables ; les DataFrames PySpark sont immuables

  • L’API pandas couvre plus d’opérations que l’API DataFrame PySpark

Principes fondamentaux des mégadonnées avec PySpark

Visualisation avec HandySpark

  • HandySpark est un package conçu pour améliorer l’expérience PySpark
    • Récupération de données facile
    • Calcul distribué conservé
test_df = spark.read.csv('test.csv', header=True, inferSchema=True)
hdf = test_df.toHandy()
hdf.cols["Age"].hist()
Principes fondamentaux des mégadonnées avec PySpark

Visualisons des DataFrames

Principes fondamentaux des mégadonnées avec PySpark

Preparing Video For Download...