Introductie tot PySpark
Benjamin Schmidt
Data Engineer
# Initialiseer Spark-sessie spark = SparkSession.builder.appName("Spark SQL Voorbeeld").getOrCreate()# Voorbeeld DataFrame data = [("Alice", "HR", 30), ("Bob", "IT", 40), ("Cathy", "HR", 28)] columns = ["Naam", "Afdeling", "Leeftijd"] df = spark.createDataFrame(data, schema=columns)# Registreer DataFrame als tijdelijke weergave df.createOrReplaceTempView("people")# Query met SQL result = spark.sql("SELECT Naam, Leeftijd FROM people WHERE Leeftijd > 30") result.show()
df = spark.read.csv("path/to/your/file.csv", header=True, inferSchema=True)
# Registreer DataFrame als tijdelijke weergave
df.createOrReplaceTempView("employees")
# SQL-query resultaat query_result = spark.sql("SELECT Naam, Salaris FROM employees WHERE Salaris > 3000")# DataFrame-transformatie high_earners = query_result.withColumn("Bonus", query_result.Salaris * 0.1) high_earners.show()
Introductie tot PySpark