Introductie tot PySpark
Benjamin Schmidt
Data Engineer

RDD's of Resilient Distributed Datasets:
map() of filter(), met acties zoals collect() of paralelize() om resultaten op te halen of RDD's te maken# Start een Spark-sessie from pyspark.sql import SparkSession spark = SparkSession.builder.appName("RDDExample").getOrCreate()# Maak een DataFrame van een csv census_df = spark.read.csv("/census.csv")# Converteer DataFrame naar RDD census_rdd = census_df.rdd# Toon de inhoud van de RDD met collect() census_rdd.collect()
# Verzamel het hele DataFrame in een lokale Python-lijst van Row-objecten
data_collected = df.collect()
# Print de verzamelde data
for row in data_collected:
print(row)
```
map(): past functies toe (inclusief zelfgeschreven zoals een lambda-functie) op een dataset zoals:
rdd.map(map_function)collect(): verzamelt data van de cluster zoals:
rdd.collect()Introductie tot PySpark