Introduction à PySpark
Benjamin Schmidt
Data Engineer

RDDs ou Jeux de Données Distribués Résilients :
map() ou filter(), et des actions comme collect() ou paralelize() pour récupérer les résultats ou créer des RDDs# Initialiser une session Spark from pyspark.sql import SparkSession spark = SparkSession.builder.appName("RDDExample").getOrCreate()# Créer un DataFrame à partir d'un csv census_df = spark.read.csv("/census.csv")# Convertir le DataFrame en RDD census_rdd = census_df.rdd# Afficher le contenu du RDD avec collect() census_rdd.collect()
# Collecter l'ensemble du DataFrame dans une liste Python locale d'objets Row
data_collected = df.collect()
# Imprimer les données collectées
for row in data_collected:
print(row)
```
map(): applique des fonctions (y compris des fonctions lambda) sur un ensemble de données comme :
rdd.map(map_function)collect(): collecte les données à travers le cluster comme :
rdd.collect()Introduction à PySpark