Introduction aux RDD PySpark

Principes fondamentaux des mégadonnées avec PySpark

Upendra Devisetty

Science Analyst, CyVerse

Qu’est-ce qu’un RDD ?

rdd

Resilient Distributed Datasets
- Résilient : capacité à résister aux pannes
- Distribué : réparti sur plusieurs machines
- Datasets : collection de données partitionnées (p. ex. tableaux, tables, tuples)

Paralléliser une collection existante d’objets
Jeux de données externes :
- Fichiers dans HDFS
- Objets dans un bucket Amazon S3
- Lignes d’un fichier texte
À partir de RDD existants

numRDD = sc.parallelize([1,2,3,4])

helloRDD = sc.parallelize("Hello world")

type(helloRDD)

<class 'pyspark.rdd.PipelinedRDD'>

fileRDD = sc.textFile("README.md")

type(fileRDD)

<class 'pyspark.rdd.PipelinedRDD'>

numRDD = sc.parallelize(range(10), minPartitions = 6)

fileRDD = sc.textFile("README.md", minPartitions = 6)

Principes fondamentaux des mégadonnées avec PySpark