Daha fazla eylem

PySpark ile Big Data Temelleri

Upendra Devisetty

Science Analyst, CyVerse

reduce() eylemi

reduce(func) eylemi, sıradan bir RDD’nin öğelerini toplamak (aggregate) için kullanılır
Fonksiyon değişmeli (işleçlerin sırası sonucu değiştirmez) ve birleşmeli olmalıdır
PySpark’ta reduce() eylemine bir örnek

x = [1,3,4,6]
RDD = sc.parallelize(x)
RDD.reduce(lambda x, y : x + y)

saveAsTextFile() eylemi, RDD’yi bir dizin içinde metin dosyası olarak kaydeder; her bölüm ayrı bir dosyadır

RDD.saveAsTextFile("tempFile")

RDD.coalesce(1).saveAsTextFile("tempFile")

rdd = sc.parallelize([("a", 1), ("b", 1), ("a", 1)])
for kee, val in rdd.countByKey().items():
  print(kee, val)

('a', 2)
('b', 1)

sc.parallelize([(1, 2), (3, 4)]).collectAsMap()

{1: 2, 3: 4}

PySpark ile Big Data Temelleri