Einführung in Spark SQL

Einführung in PySpark

Benjamin Schmidt

Data Engineer

Was ist Spark SQL?

Modul in Apache Spark für die Verarbeitung von strukturierten Daten
Lässt uns SQL-Abfragen im gleichen Atemzug mit Datenverarbeitungsaufgaben ausführen.
Nahtlose Kombination von Python und SQL in einer Anwendung

DataFrame-Schnittstelle: Ermöglicht programmgesteuerten Zugriff auf strukturierte Daten

Temporäre Tabellen erstellen

# Initialize Spark session
spark = SparkSession.builder.appName("Spark SQL Example").getOrCreate()

# Sample DataFrame
data = [("Alice", "HR", 30), ("Bob", "IT", 40), ("Cathy", "HR", 28)]
columns = ["Name", "Department", "Age"]
df = spark.createDataFrame(data, schema=columns)

# Register DataFrame as a temporary view
df.createOrReplaceTempView("people")

# Query using SQL
result = spark.sql("SELECT Name, Age FROM people WHERE Age > 30")
result.show()

Temp Views im Detail

Temp Views schützen die zugrunde liegenden Daten während der Analyse.

Das Laden aus einer CSV-Datei nutzt Methoden, die wir bereits kennen.

df = spark.read.csv("path/to/your/file.csv", header=True, inferSchema=True)

# Register DataFrame as a temporary view
df.createOrReplaceTempView("employees")

SQL- und DataFrame-Operationen kombinieren

# SQL query result
query_result = spark.sql("SELECT Name, Salary FROM employees WHERE Salary > 3000")

# DataFrame transformation
high_earners = query_result.withColumn("Bonus", query_result.Salary * 0.1)
high_earners.show()

Lass uns üben!

Einführung in PySpark