Introductie tot Spark SQL

Introductie tot PySpark

Benjamin Schmidt

Data Engineer

Wat is Spark SQL

Module in Apache Spark voor gestructureerde dataverwerking
Maakt het mogelijk om SQL-query's uit te voeren naast dataverwerkingstaken
Naadloze combinatie van Python en SQL in één applicatie

DataFrame-koppeling: Biedt programmatische toegang tot gestructureerde data

Tijdelijke tabellen maken

# Initialiseer Spark-sessie
spark = SparkSession.builder.appName("Spark SQL Voorbeeld").getOrCreate()

# Voorbeeld DataFrame
data = [("Alice", "HR", 30), ("Bob", "IT", 40), ("Cathy", "HR", 28)]
columns = ["Naam", "Afdeling", "Leeftijd"]
df = spark.createDataFrame(data, schema=columns)

# Registreer DataFrame als tijdelijke weergave
df.createOrReplaceTempView("people")

# Query met SQL
result = spark.sql("SELECT Naam, Leeftijd FROM people WHERE Leeftijd > 30")
result.show()

Dieper in tijdelijke weergaven

Tijdelijke weergaven beschermen de onderliggende data tijdens analyses

Laden vanuit een CSV gebruikt methoden die we al kennen

df = spark.read.csv("path/to/your/file.csv", header=True, inferSchema=True)

# Registreer DataFrame als tijdelijke weergave
df.createOrReplaceTempView("employees")

SQL en DataFrame-operaties combineren

# SQL-query resultaat
query_result = spark.sql("SELECT Naam, Salaris FROM employees WHERE Salaris > 3000")

# DataFrame-transformatie
high_earners = query_result.withColumn("Bonus", query_result.Salaris * 0.1)
high_earners.show()

Laten we oefenen!

Introductie tot PySpark