Introductie tot PySpark
Benjamin Schmidt
Data Engineer
spark.read.csv("path/to/file.csv")
spark.read.json("path/to/file.json")
spark.read.parquet("path/to/file.parquet")
Spark kan schema's afleiden uit data met inferSchema=True
Definieer schema's handmatig voor meer controle - handig voor vaste datastructuren

IntegerType: Gehele getallen1, 3478, -18904569223347758063.14159"Dit is een voorbeeld van een string."# Importeer de benodigde types als klassen
from pyspark.sql.types import (StructType,
StructField, IntegerType,
StringType, ArrayType)
# Bouw het schema
schema = StructType([
StructField("id", IntegerType(), True),
StructField("name", StringType(), True),
StructField("scores", ArrayType(IntegerType()), True)
])
# Stel het schema in
df = spark.createDataFrame(data, schema=schema)
.select() om specifieke kolommen te kiezen.filter() of .where() om rijen te filteren op basis van voorwaarden.sort() om te sorteren op kolommen# Selecteer en toon alleen de kolommen naam en leeftijd
df.select("name", "age").show()
# Filter op leeftijd > 30
df.filter(df["age"] > 30).show()
# Gebruik Where om te filteren op een specifieke waarde
df.where(df["age"] == 30).show()
# Gebruik Sort om te sorteren op leeftijd
df.sort("age", ascending=False).show()
.sort() of .orderBy()na.drop() om rijen met null-waarden te verwijderen# Sorteer op de kolom leeftijd
df.sort("age", ascending=False).show()
# Verwijder ontbrekende waarden
df.na.drop().show()
spark.read_json(): Laad data uit JSONspark.read.schema(): Definieer schema's expliciet.na.drop(): Verwijder rijen met ontbrekende waarden.select(), .filter(), .sort(), .orderBy(): Basisfuncties voor datamanipulatieIntroductie tot PySpark