Daha fazla eylem

PySpark ile Big Data Temelleri

Upendra Devisetty

Science Analyst, CyVerse

reduce() eylemi

  • reduce(func) eylemi, sıradan bir RDD’nin öğelerini toplamak (aggregate) için kullanılır

  • Fonksiyon değişmeli (işleçlerin sırası sonucu değiştirmez) ve birleşmeli olmalıdır

  • PySpark’ta reduce() eylemine bir örnek

x = [1,3,4,6]
RDD = sc.parallelize(x)
RDD.reduce(lambda x, y : x + y)
14
PySpark ile Big Data Temelleri

saveAsTextFile() eylemi

  • saveAsTextFile() eylemi, RDD’yi bir dizin içinde metin dosyası olarak kaydeder; her bölüm ayrı bir dosyadır
RDD.saveAsTextFile("tempFile")
  • RDD’yi tek bir metin dosyası olarak kaydetmek için coalesce() kullanılabilir
RDD.coalesce(1).saveAsTextFile("tempFile")
PySpark ile Big Data Temelleri

Çift RDD’lerde eylem işlemleri

  • PySpark çift RDD’ler için mevcut RDD eylemleri

  • Çift RDD eylemleri anahtar-değer verisini kullanır

  • Bazı çift RDD eylemleri

    • countByKey()

    • collectAsMap()

PySpark ile Big Data Temelleri

countByKey() eylemi

  • countByKey() yalnızca (K, V) tipi için kullanılabilir

  • countByKey() eylemi her anahtar için öğe sayısını döndürür

  • Basit bir liste üzerinde countByKey() örneği

rdd = sc.parallelize([("a", 1), ("b", 1), ("a", 1)])
for kee, val in rdd.countByKey().items():
  print(kee, val)
('a', 2)
('b', 1)
PySpark ile Big Data Temelleri

collectAsMap() eylemi

  • collectAsMap() RDD’deki anahtar-değer çiftlerini sözlük olarak döndürür

  • Basit bir tuple üzerinde collectAsMap() örneği

sc.parallelize([(1, 2), (3, 4)]).collectAsMap()
{1: 2, 3: 4}
PySpark ile Big Data Temelleri

Haydi pratik yapalım

PySpark ile Big Data Temelleri

Preparing Video For Download...