Einführung in Spark SQL

Einführung in PySpark

Benjamin Schmidt

Data Engineer

Was ist Spark SQL

  • Modul in Apache Spark für strukturierte Datenverarbeitung
  • Ermöglicht SQL-Abfragen neben Datenverarbeitung
  • Nahtlose Kombination von Python und SQL in einer Anwendung
  • DataFrame-Schnittstelle: Programmatischer Zugriff auf strukturierte Daten
Einführung in PySpark

Temporäre Tabellen erstellen

# Spark-Sitzung initialisieren
spark = SparkSession.builder.appName("Spark SQL Example").getOrCreate()

# Beispiel-DataFrame data = [("Alice", "HR", 30), ("Bob", "IT", 40), ("Cathy", "HR", 28)] columns = ["Name", "Department", "Age"] df = spark.createDataFrame(data, schema=columns)
# DataFrame als temporäre Ansicht registrieren df.createOrReplaceTempView("people")
# Abfrage mit SQL result = spark.sql("SELECT Name, Age FROM people WHERE Age > 30") result.show()
Einführung in PySpark

Mehr zu temporären Ansichten

  • Temp Views schützen die zugrunde liegenden Daten bei Analysen
  • Laden aus einer CSV mit bekannten Methoden
    df = spark.read.csv("path/to/your/file.csv", header=True, inferSchema=True)
    
# DataFrame als temporäre Ansicht registrieren
df.createOrReplaceTempView("employees")
Einführung in PySpark

SQL und DataFrame-Operationen kombinieren

# SQL-Abfrageergebnis
query_result = spark.sql("SELECT Name, Salary FROM employees WHERE Salary > 3000")

# DataFrame-Transformation high_earners = query_result.withColumn("Bonus", query_result.Salary * 0.1) high_earners.show()
Einführung in PySpark

Lass uns üben!

Einführung in PySpark

Preparing Video For Download...