PySpark RDD’ye Giriş

PySpark ile Big Data Temelleri

Upendra Devisetty

Science Analyst, CyVerse

RDD nedir?

rdd

Resilient Distributed Datasets
- Resilient: Hatalara dayanıklı olma
- Distributed: Birden çok makineye yayılma
- Datasets: Bölümlenmiş veri koleksiyonu; örn. Diziler, Tablolar, Demetler vb.

Mevcut bir nesne koleksiyonunu paralelleştirme
Haricî veri kümeleri:
- HDFS’teki dosyalar
- Amazon S3 kovasındaki nesneler
- Bir metin dosyasındaki satırlar
Mevcut RDD’lerden

numRDD = sc.parallelize([1,2,3,4])

helloRDD = sc.parallelize("Hello world")

type(helloRDD)

<class 'pyspark.rdd.PipelinedRDD'>

fileRDD = sc.textFile("README.md")

type(fileRDD)

<class 'pyspark.rdd.PipelinedRDD'>

numRDD = sc.parallelize(range(10), minPartitions = 6)

fileRDD = sc.textFile("README.md", minPartitions = 6)

PySpark ile Big Data Temelleri