Introduzione a PySpark
Benjamin Schmidt
Data Engineer

RDD o Resilient Distributed Datasets:
map() o filter(), con azioni come collect() o paralelize() per ottenere risultati o creare RDD# Inizializza una sessione Spark from pyspark.sql import SparkSession spark = SparkSession.builder.appName("RDDExample").getOrCreate()# Crea un DataFrame da un csv census_df = spark.read.csv("/census.csv")# Converti DataFrame in RDD census_rdd = census_df.rdd# Mostra il contenuto dell'RDD usando collect() census_rdd.collect()
# Raccogli l'intero DataFrame in una lista Python locale di oggetti Row
data_collected = df.collect()
# Stampa i dati raccolti
for row in data_collected:
print(row)
```
map(): applica funzioni (anche lambda) su un dataset come:
rdd.map(map_function)collect(): raccoglie dati dal cluster come:
rdd.collect()Introduzione a PySpark