Introdução ao PySpark
Benjamin Schmidt
Data Engineer

RDDs ou Conjuntos de Dados Distribuídos Resilientes:
map() ou filter(), com ações como collect() ou paralelize() para obter resultados ou criar RDDs# Inicializar uma sessão Spark from pyspark.sql import SparkSession spark = SparkSession.builder.appName("RDDExample").getOrCreate()# Criar um DataFrame a partir de um csv census_df = spark.read.csv("/census.csv")# Converter DataFrame para RDD census_rdd = census_df.rdd# Mostrar o conteúdo do RDD usando collect() census_rdd.collect()
# Coletar todo o DataFrame em uma lista local de objetos Row do Python
data_collected = df.collect()
# Imprimir os dados coletados
for row in data_collected:
print(row)
```
map(): aplica funções (incluindo lambdas) em um dataset como:
rdd.map(map_function)collect(): coleta dados do cluster como:
rdd.collect()Introdução ao PySpark