PySpark'e Giriş
Benjamin Schmidt
Data Engineer

RDD'ler veya Dayanıklı Dağıtık Veri Kümeleri:
map() veya filter() gibi işlemlerle dönüştürülebilir, collect() veya paralelize() gibi eylemlerle sonuçlar alınabilir veya RDD'ler oluşturulabilir# Bir Spark oturumu başlat from pyspark.sql import SparkSession spark = SparkSession.builder.appName("RDDExample").getOrCreate()# Bir csv'den DataFrame oluştur census_df = spark.read.csv("/census.csv")# DataFrame'i RDD'ye dönüştür census_rdd = census_df.rdd# RDD'nin içeriğini collect() ile göster census_rdd.collect()
# Tüm DataFrame'i yerel bir Python Row nesneleri listesine topla
data_collected = df.collect()
# Toplanan verileri yazdır
for row in data_collected:
print(row)
```
map(): Fonksiyonları (lambda fonksiyonu gibi) bir veri kümesine uygular:
rdd.map(map_function)collect(): Küme genelinden verileri toplar:
rdd.collect()PySpark'e Giriş