Introducción a PySpark
Benjamin Schmidt
Data Engineer

RDDs o Conjuntos de Datos Distribuidos Resilientes:
map() o filter(), con acciones como collect() o paralelize() para obtener resultados o crear RDDs# Iniciar una sesión de Spark from pyspark.sql import SparkSession spark = SparkSession.builder.appName("RDDExample").getOrCreate()# Crear un DataFrame desde un csv census_df = spark.read.csv("/census.csv")# Convertir DataFrame a RDD census_rdd = census_df.rdd# Mostrar el contenido del RDD usando collect() census_rdd.collect()
# Recoger todo el DataFrame en una lista local de objetos Row en Python
data_collected = df.collect()
# Imprimir los datos recogidos
for row in data_collected:
print(row)
```
map(): aplica funciones (incluyendo las que escribimos como una función lambda) a través de un conjunto de datos como:
rdd.map(map_function)collect(): recoge datos de todo el clúster como:
rdd.collect()Introducción a PySpark