Introduzione a PySpark
Benjamin Schmidt
Data Engineer
spark.read.csv("path/to/file.csv")
spark.read.json("path/to/file.json")
spark.read.parquet("path/to/file.parquet")
Spark può dedurre schemi dai dati con inferSchema=True
Definisci manualmente lo schema per un controllo migliore - utile per strutture dati fisse

IntegerType: Numeri interi1, 3478, -18904569223347758063.14159"Questo è un esempio di stringa."# Importa i tipi necessari come classi
from pyspark.sql.types import (StructType,
StructField, IntegerType,
StringType, ArrayType)
# Costruisci lo schema
schema = StructType([
StructField("id", IntegerType(), True),
StructField("name", StringType(), True),
StructField("scores", ArrayType(IntegerType()), True)
])
# Imposta lo schema
df = spark.createDataFrame(data, schema=schema)
.select() per scegliere colonne specifiche.filter() o .where() per filtrare righe in base a condizioni.sort() per ordinare per una serie di colonne# Seleziona e mostra solo le colonne nome e età
df.select("name", "age").show()
# Filtra per età > 30
df.filter(df["age"] > 30).show()
# Usa Where per filtrare un valore specifico
df.where(df["age"] == 30).show()
# Usa Sort per ordinare per età
df.sort("age", ascending=False).show()
.sort() o .orderBy()na.drop() per rimuovere righe con valori nulli# Ordina usando la colonna età
df.sort("age", ascending=False).show()
# Elimina valori mancanti
df.na.drop().show()
spark.read_json(): Carica dati da JSONspark.read.schema(): Definisci schemi esplicitamente.na.drop(): Elimina righe con valori mancanti.select(), .filter(), .sort(), .orderBy(): Funzioni base di manipolazione datiIntroduzione a PySpark