Principes fondamentaux des mégadonnées avec PySpark
Upendra Devisetty
Science Analyst, CyVerse
Apache Spark est écrit en Scala
Pour prendre en charge Python, la communauté Apache Spark a publié PySpark
Vitesse et puissance de calcul similaires à Scala
Les API PySpark ressemblent à Pandas et Scikit-learn
Environnement interactif pour exécuter des jobs Spark
Utile pour le prototypage rapide
Les shells Spark permettent d’interagir avec des données sur disque ou en mémoire
Trois shells Spark :
Spark-shell pour Scala
PySpark-shell pour Python
SparkR pour R
Le shell PySpark est l’outil en ligne de commande basé sur Python
Il permet aux data scientists d’interagir avec les structures de données de Spark
Le shell PySpark peut se connecter à un cluster
SparkContext est le point d’entrée dans Spark
Un point d’entrée est un moyen de se connecter à un cluster Spark
Un point d’entrée est comme une clé de maison
PySpark a un SparkContext par défaut nommé sc
sc.version
2.3.1
sc.pythonVer
3.6
sc.master
local[*]
parallelize() de SparkContextrdd = sc.parallelize([1,2,3,4,5])
textFile() de SparkContextrdd2 = sc.textFile("test.txt")
Principes fondamentaux des mégadonnées avec PySpark