Introduction à Spark SQL

Introduction à PySpark

Benjamin Schmidt

Data Engineer

Qu'est-ce que Spark SQL

Module d'Apache Spark pour le traitement des données structurées
Permet d'exécuter des requêtes SQL avec des tâches de traitement de données
Combinaison fluide de Python et SQL dans une application

Interface DataFrame : Accès programmatique aux données structurées

Créer des tables temporaires

# Initialiser la session Spark
spark = SparkSession.builder.appName("Spark SQL Example").getOrCreate()

# DataFrame d'exemple
data = [("Alice", "HR", 30), ("Bob", "IT", 40), ("Cathy", "HR", 28)]
columns = ["Name", "Department", "Age"]
df = spark.createDataFrame(data, schema=columns)

# Enregistrer le DataFrame comme vue temporaire
df.createOrReplaceTempView("people")

# Requête SQL
result = spark.sql("SELECT Name, Age FROM people WHERE Age > 30")
result.show()

Approfondir les vues temporaires

Les vues temporaires protègent les données lors des analyses

Charger depuis un CSV utilise des méthodes connues

df = spark.read.csv("path/to/your/file.csv", header=True, inferSchema=True)

# Enregistrer le DataFrame comme vue temporaire
df.createOrReplaceTempView("employees")

Combiner SQL et opérations DataFrame

# Résultat de la requête SQL
query_result = spark.sql("SELECT Name, Salary FROM employees WHERE Salary > 3000")

# Transformation du DataFrame
high_earners = query_result.withColumn("Bonus", query_result.Salary * 0.1)
high_earners.show()

Passons à la pratique !

Introduction à PySpark