Weitere Actions

Grundlagen von Big Data mit PySpark

Upendra Devisetty

Science Analyst, CyVerse

reduce()-Action

Die Action reduce(func) aggregiert Elemente eines normalen RDD
Die Funktion muss kommutativ (Reihenfolge ändert das Ergebnis nicht) und assoziativ sein
Beispiel für die reduce()-Action in PySpark

x = [1,3,4,6]
RDD = sc.parallelize(x)
RDD.reduce(lambda x, y : x + y)

Die Action saveAsTextFile() speichert ein RDD als Textdatei in einem Verzeichnis, jede Partition als eigene Datei

RDD.saveAsTextFile("tempFile")

RDD.coalesce(1).saveAsTextFile("tempFile")

rdd = sc.parallelize([("a", 1), ("b", 1), ("a", 1)])
for kee, val in rdd.countByKey().items():
  print(kee, val)

('a', 2)
('b', 1)

sc.parallelize([(1, 2), (3, 4)]).collectAsMap()

{1: 2, 3: 4}

Grundlagen von Big Data mit PySpark