PySpark ile Big Data Temelleri
Upendra Devisetty
Science Analyst, CyVerse

Resilient Distributed Datasets
Resilient: Hatalara dayanıklı olma
Distributed: Birden çok makineye yayılma
Datasets: Bölümlenmiş veri koleksiyonu; örn. Diziler, Tablolar, Demetler vb.
Mevcut bir nesne koleksiyonunu paralelleştirme
Haricî veri kümeleri:
HDFS’teki dosyalar
Amazon S3 kovasındaki nesneler
Bir metin dosyasındaki satırlar
Mevcut RDD’lerden
parallelize()numRDD = sc.parallelize([1,2,3,4])
helloRDD = sc.parallelize("Hello world")
type(helloRDD)
<class 'pyspark.rdd.PipelinedRDD'>
textFile()fileRDD = sc.textFile("README.md")
type(fileRDD)
<class 'pyspark.rdd.PipelinedRDD'>
Bölüm (partition), büyük bir dağıtık veri kümesinin mantıksal bölünmesidir
parallelize() yöntemi
numRDD = sc.parallelize(range(10), minPartitions = 6)
textFile() yöntemifileRDD = sc.textFile("README.md", minPartitions = 6)
getNumPartitions() yöntemiyle bulunurPySpark ile Big Data Temelleri