Introduction à Spark SQL

Introduction à PySpark

Benjamin Schmidt

Data Engineer

Qu'est-ce que Spark SQL

  • Module d'Apache Spark pour le traitement des données structurées
  • Permet d'exécuter des requêtes SQL avec des tâches de traitement de données
  • Combinaison fluide de Python et SQL dans une application
  • Interface DataFrame : Accès programmatique aux données structurées
Introduction à PySpark

Créer des tables temporaires

# Initialiser la session Spark
spark = SparkSession.builder.appName("Spark SQL Example").getOrCreate()

# DataFrame d'exemple data = [("Alice", "HR", 30), ("Bob", "IT", 40), ("Cathy", "HR", 28)] columns = ["Name", "Department", "Age"] df = spark.createDataFrame(data, schema=columns)
# Enregistrer le DataFrame comme vue temporaire df.createOrReplaceTempView("people")
# Requête SQL result = spark.sql("SELECT Name, Age FROM people WHERE Age > 30") result.show()
Introduction à PySpark

Approfondir les vues temporaires

  • Les vues temporaires protègent les données lors des analyses
  • Charger depuis un CSV utilise des méthodes connues
    df = spark.read.csv("path/to/your/file.csv", header=True, inferSchema=True)
    
# Enregistrer le DataFrame comme vue temporaire
df.createOrReplaceTempView("employees")
Introduction à PySpark

Combiner SQL et opérations DataFrame

# Résultat de la requête SQL
query_result = spark.sql("SELECT Name, Salary FROM employees WHERE Salary > 3000")

# Transformation du DataFrame high_earners = query_result.withColumn("Bonus", query_result.Salary * 0.1) high_earners.show()
Introduction à PySpark

Passons à la pratique !

Introduction à PySpark

Preparing Video For Download...