Meer acties

Big Data Fundamentals met PySpark

Upendra Devisetty

Science Analyst, CyVerse

reduce()-actie

De actie reduce(func) wordt gebruikt om elementen van een gewone RDD te aggregeren
De functie moet commutatief (volgorde van operand(en) maakt niet uit) en associatief zijn
Voorbeeld van de actie reduce() in PySpark

x = [1,3,4,6]
RDD = sc.parallelize(x)
RDD.reduce(lambda x, y : x + y)

De actie saveAsTextFile() slaat een RDD op als tekstbestanden in een map, met elke partitie als apart bestand

RDD.saveAsTextFile("tempFile")

RDD.coalesce(1).saveAsTextFile("tempFile")

rdd = sc.parallelize([("a", 1), ("b", 1), ("a", 1)])
for kee, val in rdd.countByKey().items():
  print(kee, val)

('a', 2)
('b', 1)

sc.parallelize([(1, 2), (3, 4)]).collectAsMap()

{1: 2, 3: 4}

Big Data Fundamentals met PySpark