Einführung in PySpark
Benjamin Schmidt
Data Engineer

RDDs oder Resilient Distributed Datasets:
map() oder filter() transformiert werden, mit Aktionen wie collect() oder paralelize(), um Ergebnisse abzurufen oder RDDs zu erstellen.# Initialize a Spark session from pyspark.sql import SparkSession spark = SparkSession.builder.appName("RDDExample").getOrCreate()# Create a DataFrame from a csv census_df = spark.read.csv("/census.csv")# Convert DataFrame to RDD census_rdd = census_df.rdd# Show the RDD's contents using collect() census_rdd.collect()
# Collect the entire DataFrame into a local Python list of Row objects
data_collected = df.collect()
# Print the collected data
for row in data_collected:
print(row)
```
map(): Die Methode wendet Funktionen (auch solche, die wir wie eine Lambda-Funktion schreiben) auf einen Datensatz an, zum Beispiel:
rdd.map(map_function)collect(): sammelt Daten aus dem ganzen Cluster, zum Beispiel:
rdd.collect()Einführung in PySpark