PySpark : Spark avec Python

Principes fondamentaux des mégadonnées avec PySpark

Upendra Devisetty

Science Analyst, CyVerse

Aperçu de PySpark

  • Apache Spark est écrit en Scala

  • Pour prendre en charge Python, la communauté Apache Spark a publié PySpark

  • Vitesse et puissance de calcul similaires à Scala

  • Les API PySpark ressemblent à Pandas et Scikit-learn

Principes fondamentaux des mégadonnées avec PySpark

Qu’est-ce que le shell Spark ?

  • Environnement interactif pour exécuter des jobs Spark

  • Utile pour le prototypage rapide

  • Les shells Spark permettent d’interagir avec des données sur disque ou en mémoire

  • Trois shells Spark :

    • Spark-shell pour Scala

    • PySpark-shell pour Python

    • SparkR pour R

Principes fondamentaux des mégadonnées avec PySpark

Shell PySpark

  • Le shell PySpark est l’outil en ligne de commande basé sur Python

  • Il permet aux data scientists d’interagir avec les structures de données de Spark

  • Le shell PySpark peut se connecter à un cluster

Principes fondamentaux des mégadonnées avec PySpark

Comprendre SparkContext

  • SparkContext est le point d’entrée dans Spark

  • Un point d’entrée est un moyen de se connecter à un cluster Spark

  • Un point d’entrée est comme une clé de maison

  • PySpark a un SparkContext par défaut nommé sc

1 https://www.datacamp.com/cheat-sheet/pyspark-cheat-sheet-spark-in-python
Principes fondamentaux des mégadonnées avec PySpark

Inspection de SparkContext

  • Version : récupérer la version de SparkContext
sc.version
2.3.1
  • Version de Python : récupérer la version Python de SparkContext
sc.pythonVer
3.6
  • Master : URL du cluster ou chaîne « local » pour le mode local de SparkContext
sc.master
local[*]
1 https://www.datacamp.com/cheat-sheet/pyspark-cheat-sheet-spark-in-python
Principes fondamentaux des mégadonnées avec PySpark

Charger des données en PySpark

  • Méthode parallelize() de SparkContext
rdd = sc.parallelize([1,2,3,4,5])
  • Méthode textFile() de SparkContext
rdd2 = sc.textFile("test.txt")
1 https://www.datacamp.com/cheat-sheet/pyspark-cheat-sheet-spark-in-python
Principes fondamentaux des mégadonnées avec PySpark

Passons à la pratique !

Principes fondamentaux des mégadonnées avec PySpark

Preparing Video For Download...