Trabalhando com Pair RDDs no PySpark

Fundamentos de Big Data com PySpark

Upendra Devisetty

Science Analyst, CyVerse

Introdução a pair RDDs no PySpark

Dados reais geralmente são pares chave/valor
Cada linha é uma chave e mapeia para um ou mais valores
Pair RDD é uma estrutura especial para esse tipo de dado
Pair RDD: chave é o identificador e o valor é o dado

Criando pair RDDs

Duas formas comuns de criar pair RDDs
- A partir de uma lista de tuplas chave-valor
- A partir de um RDD comum
Coloque os dados no formato chave/valor para o paired RDD

my_tuple = [('Sam', 23), ('Mary', 34), ('Peter', 25)]
pairRDD_tuple = sc.parallelize(my_tuple)

my_list = ['Sam 23', 'Mary 34', 'Peter 25']
regularRDD = sc.parallelize(my_list)
pairRDD_RDD = regularRDD.map(lambda s: (s.split(' ')[0], s.split(' ')[1]))

Transformações em pair RDDs

Todas as transformações comuns funcionam em pair RDD
Passe funções que operam em pares chave-valor, não em elementos isolados
Exemplos de transformações em paired RDD
- reduceByKey(func): combina valores com a mesma chave
- groupByKey(): agrupa valores com a mesma chave
- sortByKey(): retorna um RDD ordenado pela chave
- join(): une dois pair RDDs pela chave

Transformação reduceByKey()

reduceByKey() combina valores com a mesma chave
Executa operações em paralelo para cada chave no conjunto
É uma transformação, não uma ação

regularRDD = sc.parallelize([("Messi", 23), ("Ronaldo", 34), 
                             ("Neymar", 22), ("Messi", 24)])
pairRDD_reducebykey = regularRDD.reduceByKey(lambda x,y : x + y)
pairRDD_reducebykey.collect()

[('Neymar', 22), ('Ronaldo', 34), ('Messi', 47)]

Transformação sortByKey()

sortByKey() ordena o pair RDD pela chave
Retorna um RDD ordenado pela chave em ordem crescente ou decrescente

pairRDD_reducebykey_rev = pairRDD_reducebykey.map(lambda x: (x[1], x[0]))
pairRDD_reducebykey_rev.sortByKey(ascending=False).collect()

[(47, 'Messi'), (34, 'Ronaldo'), (22, 'Neymar')]

Transformação groupByKey()

groupByKey() agrupa todos os valores com a mesma chave no pair RDD

airports = [("US", "JFK"),("UK", "LHR"),("FR", "CDG"),("US", "SFO")]
regularRDD = sc.parallelize(airports)
pairRDD_group = regularRDD.groupByKey().collect()
for cont, air in pairRDD_group:
  print(cont, list(air))

FR ['CDG']
US ['JFK', 'SFO']
UK ['LHR']

Transformação join()

A transformação join() junta dois pair RDDs pela chave

RDD1 = sc.parallelize([("Messi", 34),("Ronaldo", 32),("Neymar", 24)])
RDD2 = sc.parallelize([("Ronaldo", 80),("Neymar", 120),("Messi", 100)])

RDD1.join(RDD2).collect()

[('Neymar', (24, 120)), ('Ronaldo', (32, 80)), ('Messi', (34, 100))]

Vamos praticar!

Fundamentos de Big Data com PySpark