Introducción a los RDD de PySpark

Fundamentos de big data con PySpark

Upendra Devisetty

Science Analyst, CyVerse

¿Qué es un RDD?

rdd

Resilient Distributed Datasets
- Resilient: Capacidad de resistir fallos
- Distributed: Se ejecuta en varias máquinas
- Datasets: Colección de datos particionados, p. ej., arrays, tablas, tuplas, etc.

Paralelizar una colección existente de objetos
Conjuntos de datos externos:
- Archivos en HDFS
- Objetos en un bucket de Amazon S3
- Líneas en un archivo de texto
A partir de RDD existentes

numRDD = sc.parallelize([1,2,3,4])

helloRDD = sc.parallelize("Hello world")

type(helloRDD)

<class 'pyspark.rdd.PipelinedRDD'>

fileRDD = sc.textFile("README.md")

type(fileRDD)

<class 'pyspark.rdd.PipelinedRDD'>

numRDD = sc.parallelize(range(10), minPartitions = 6)

fileRDD = sc.textFile("README.md", minPartitions = 6)

El número de particiones de un RDD se obtiene con el método getNumPartitions()

Fundamentos de big data con PySpark