Einführung in PySpark
Benjamin Schmidt
Data Engineer

RDDs oder Resiliente Verteilte Datensätze:
map() oder filter() transformiert werden, mit Aktionen wie collect() oder paralelize() um Ergebnisse abzurufen oder RDDs zu erstellen# Initialisiere eine Spark-Session from pyspark.sql import SparkSession spark = SparkSession.builder.appName("RDDExample").getOrCreate()# Erstelle ein DataFrame aus einer CSV census_df = spark.read.csv("/census.csv")# Konvertiere DataFrame zu RDD census_rdd = census_df.rdd# Zeige den Inhalt des RDDs mit collect() census_rdd.collect()
# Sammle das gesamte DataFrame in eine lokale Python-Liste von Row-Objekten
data_collected = df.collect()
# Drucke die gesammelten Datenor row in data_collected:
print(row)
```
map(): wendet Funktionen (auch eigene wie Lambda-Funktionen) auf ein Dataset an, z.B.:
rdd.map(map_function)collect(): sammelt Daten aus dem Cluster, z.B.:
rdd.collect()Einführung in PySpark