Más acciones

Fundamentos de big data con PySpark

Upendra Devisetty

Science Analyst, CyVerse

Acción reduce()

La acción reduce(func) agrega los elementos de un RDD normal
La función debe ser conmutativa (cambiar el orden de los operandos no cambia el resultado) y asociativa
Ejemplo de la acción reduce() en PySpark

x = [1,3,4,6]
RDD = sc.parallelize(x)
RDD.reduce(lambda x, y : x + y)

La acción saveAsTextFile() guarda el RDD en un archivo de texto dentro de un directorio, con cada partición como un archivo separado

RDD.saveAsTextFile("tempFile")

El método coalesce() puede usarse para guardar el RDD como un único archivo de texto

RDD.coalesce(1).saveAsTextFile("tempFile")

rdd = sc.parallelize([("a", 1), ("b", 1), ("a", 1)])
for kee, val in rdd.countByKey().items():
  print(kee, val)

('a', 2)
('b', 1)

sc.parallelize([(1, 2), (3, 4)]).collectAsMap()

{1: 2, 3: 4}

Fundamentos de big data con PySpark