PySpark ile Big Data Temelleri
Upendra Devisetty
Science Analyst, CyVerse


Temel RDD Dönüşümleri
map(), filter(), flatMap() ve union()
RDD = sc.parallelize([1,2,3,4])
RDD_map = RDD.map(lambda x: x * x)

RDD = sc.parallelize([1,2,3,4])
RDD_filter = RDD.filter(lambda x: x > 2)

RDD = sc.parallelize(["hello world", "how are you"])
RDD_flatmap = RDD.flatMap(lambda x: x.split(" "))

inputRDD = sc.textFile("logs.txt")
errorRDD = inputRDD.filter(lambda x: "error" in x.split())
warningsRDD = inputRDD.filter(lambda x: "warnings" in x.split())
combinedRDD = errorRDD.union(warningsRDD)
Bir hesaplama çalıştırıp RDD üzerinde bir değer döndüren işlemlerdir
Temel RDD Actions
collect()
take(N)
first()
count()
collect() veri kümesindeki tüm öğeleri bir dizi olarak döndürür
take(N) veri kümesinin ilk N öğesini içeren bir dizi döndürür
RDD_map.collect()
[1, 4, 9, 16]
RDD_map.take(2)
[1, 4]
RDD_map.first()
[1]
RDD_flatmap.count()
5
PySpark ile Big Data Temelleri