Principes fondamentaux des mégadonnées avec PySpark
Upendra Devisetty
Science Analyst, CyVerse

Resilient Distributed Datasets
Résilient : capacité à résister aux pannes
Distribué : réparti sur plusieurs machines
Datasets : collection de données partitionnées (p. ex. tableaux, tables, tuples)
Paralléliser une collection existante d’objets
Jeux de données externes :
Fichiers dans HDFS
Objets dans un bucket Amazon S3
Lignes d’un fichier texte
À partir de RDD existants
parallelize() pour créer des RDD à partir de listes PythonnumRDD = sc.parallelize([1,2,3,4])
helloRDD = sc.parallelize("Hello world")
type(helloRDD)
<class 'pyspark.rdd.PipelinedRDD'>
textFile() pour créer des RDD à partir de jeux de données externesfileRDD = sc.textFile("README.md")
type(fileRDD)
<class 'pyspark.rdd.PipelinedRDD'>
Une partition est une division logique d’un grand jeu de données distribué
Méthode parallelize()
numRDD = sc.parallelize(range(10), minPartitions = 6)
textFile()fileRDD = sc.textFile("README.md", minPartitions = 6)
getNumPartitions()Principes fondamentaux des mégadonnées avec PySpark