Pengantar PySpark
Benjamin Schmidt
Data Engineer

RDDs atau Resilient Distributed Datasets:
map() atau filter(), dengan aksi seperti collect() atau paralelize() untuk mengambil hasil atau membuat RDD# Inisialisasi sesi Spark from pyspark.sql import SparkSession spark = SparkSession.builder.appName("RDDExample").getOrCreate()# Buat DataFrame dari csv census_df = spark.read.csv("/census.csv")# Konversi DataFrame ke RDD census_rdd = census_df.rdd# Tampilkan isi RDD menggunakan collect() census_rdd.collect()
# Kumpulkan seluruh DataFrame ke dalam daftar Python lokal dari objek Row
data_collected = df.collect()
# Cetak data yang dikumpulkan
for row in data_collected:
print(row)
```
map(): metode ini menerapkan fungsi (termasuk yang kita buat seperti fungsi lambda) ke seluruh dataset seperti:
rdd.map(map_function)collect(): mengumpulkan data dari seluruh kluster seperti:
rdd.collect()Pengantar PySpark