Introduction à PySpark
Benjamin Schmidt
Data Engineer
Utilisé pour le Machine Learning, les tâches ETL, et bien plus
Enseignant enthousiaste des nouveaux outils pour tous !
-
Traitement distribué des données : Conçu pour gérer de grands ensembles de données sur des clusters
Prend en charge divers formats de données, y compris CSV, Parquet et JSON
Intégration SQL permettant de requêter les données en Python et SQL
Optimisé pour la vitesse à grande échelle

Analyse de big data
Traitement distribué des données
Streaming de données en temps réel
Machine learning sur de grands ensembles de données
Pipelines ETL et ELT
Travail avec diverses sources de données :


# Importer SparkSession
from pyspark.sql import SparkSession
# Initialiser une SparkSession
spark = SparkSession.builder.appName("MySparkApp").getOrCreate()
$$
.builder() configure une sessiongetOrCreate() crée ou récupère une session.appName() aide à gérer plusieurs sessions# Importer et initialiser une session Spark
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("MySparkApp").getOrCreate()
# Créer un DataFrame
census_df = spark.read.csv("census.csv",
["gender","age","zipcode","salary_range_usd","marriage_status"])
# Afficher le DataFrame
census_df.show()
Introduction à PySpark