Fundamentos de big data con PySpark
Upendra Devisetty
Science Analyst, CyVerse

Resilient Distributed Datasets
Resilient: Capacidad de resistir fallos
Distributed: Se ejecuta en varias máquinas
Datasets: Colección de datos particionados, p. ej., arrays, tablas, tuplas, etc.
Paralelizar una colección existente de objetos
Conjuntos de datos externos:
Archivos en HDFS
Objetos en un bucket de Amazon S3
Líneas en un archivo de texto
A partir de RDD existentes
parallelize() para crear RDD desde listas de PythonnumRDD = sc.parallelize([1,2,3,4])
helloRDD = sc.parallelize("Hello world")
type(helloRDD)
<class 'pyspark.rdd.PipelinedRDD'>
textFile() para crear RDD desde conjuntos de datos externosfileRDD = sc.textFile("README.md")
type(fileRDD)
<class 'pyspark.rdd.PipelinedRDD'>
Una partición es una división lógica de un conjunto de datos distribuido grande
Método parallelize()
numRDD = sc.parallelize(range(10), minPartitions = 6)
textFile()fileRDD = sc.textFile("README.md", minPartitions = 6)
getNumPartitions()Fundamentos de big data con PySpark