Fundamentos de Big Data com PySpark
Upendra Devisetty
Science Analyst, CyVerse

Resilient Distributed Datasets
Resilient: suporta falhas
Distributed: espalhado em várias máquinas
Datasets: coleção particionada, ex.: arrays, tabelas, tuplas etc.
Paralelizar uma coleção existente de objetos
Conjuntos de dados externos:
Arquivos no HDFS
Objetos em bucket S3 da Amazon
linhas em um arquivo texto
A partir de RDDs existentes
parallelize() para criar RDDs de listas PythonnumRDD = sc.parallelize([1,2,3,4])
helloRDD = sc.parallelize("Hello world")
type(helloRDD)
<class 'pyspark.rdd.PipelinedRDD'>
textFile() para criar RDDs de fontes externasfileRDD = sc.textFile("README.md")
type(fileRDD)
<class 'pyspark.rdd.PipelinedRDD'>
Uma partição é uma divisão lógica de um grande conjunto de dados distribuído
método parallelize()
numRDD = sc.parallelize(range(10), minPartitions = 6)
textFile()fileRDD = sc.textFile("README.md", minPartitions = 6)
getNumPartitions()Fundamentos de Big Data com PySpark