Introdução a RDDs do PySpark

Fundamentos de Big Data com PySpark

Upendra Devisetty

Science Analyst, CyVerse

O que é RDD?

rdd

Resilient Distributed Datasets
- Resilient: suporta falhas
- Distributed: espalhado em várias máquinas
- Datasets: coleção particionada, ex.: arrays, tabelas, tuplas etc.

Paralelizar uma coleção existente de objetos
Conjuntos de dados externos:
- Arquivos no HDFS
- Objetos em bucket S3 da Amazon
- linhas em um arquivo texto
A partir de RDDs existentes

numRDD = sc.parallelize([1,2,3,4])

helloRDD = sc.parallelize("Hello world")

type(helloRDD)

<class 'pyspark.rdd.PipelinedRDD'>

fileRDD = sc.textFile("README.md")

type(fileRDD)

<class 'pyspark.rdd.PipelinedRDD'>

numRDD = sc.parallelize(range(10), minPartitions = 6)

fileRDD = sc.textFile("README.md", minPartitions = 6)

O número de partições em um RDD pode ser obtido com o método getNumPartitions()

Fundamentos de Big Data com PySpark