Introduction à PySpark
Benjamin Schmidt
Data Engineer
spark.read.csv("path/to/file.csv")
spark.read.json("path/to/file.json")
spark.read.parquet("path/to/file.parquet")
Spark peut déduire les schémas des données avec inferSchema=True
Définir manuellement le schéma pour un meilleur contrôle - utile pour les structures de données fixes

IntegerType : Nombres entiers1, 3478, -18904569223347758063.14159"Ceci est un exemple de chaîne."# Importer les types nécessaires en tant que classes
from pyspark.sql.types import (StructType,
StructField, IntegerType,
StringType, ArrayType)
# Construire le schéma
schema = StructType([
StructField("id", IntegerType(), True),
StructField("name", StringType(), True),
StructField("scores", ArrayType(IntegerType()), True)
])
# Définir le schéma
df = spark.createDataFrame(data, schema=schema)
.select() pour choisir des colonnes spécifiques.filter() ou .where() pour filtrer les lignes selon des conditions.sort() pour trier par une collection de colonnes# Sélectionner et afficher uniquement les colonnes nom et âge
df.select("name", "age").show()
# Filtrer sur âge > 30
df.filter(df["age"] > 30).show()
# Utiliser Where pour filtrer une valeur spécifique
df.where(df["age"] == 30).show()
# Utiliser Sort pour trier par âge
df.sort("age", ascending=False).show()
.sort() ou .orderBy()na.drop() pour supprimer les lignes avec des valeurs nulles# Trier en utilisant la colonne âge
df.sort("age", ascending=False).show()
# Supprimer les valeurs manquantes
df.na.drop().show()
spark.read_json(): Charger des données depuis JSONspark.read.schema(): Définir explicitement les schémas.na.drop(): Supprimer les lignes avec des valeurs manquantes.select(), .filter(), .sort(), .orderBy(): Fonctions de manipulation de données de baseIntroduction à PySpark