Introducción a PySpark
Benjamin Schmidt
Data Engineer
spark.read.csv("path/to/file.csv")
spark.read.json("path/to/file.json")
spark.read.parquet("path/to/file.parquet")
Spark puede inferir esquemas de datos con inferSchema=True
Define esquemas manualmente para mayor control - útil para estructuras de datos fijas

IntegerType: Números enteros1, 3478, -18904569223347758063.14159"Este es un ejemplo de una cadena."# Importa los tipos necesarios como clases
from pyspark.sql.types import (StructType,
StructField, IntegerType,
StringType, ArrayType)
# Construye el esquema
schema = StructType([
StructField("id", IntegerType(), True),
StructField("name", StringType(), True),
StructField("scores", ArrayType(IntegerType()), True)
])
# Establece el esquema
df = spark.createDataFrame(data, schema=schema)
.select() para elegir columnas específicas.filter() o .where() para filtrar filas según condiciones.sort() para ordenar por columnas# Selecciona y muestra solo las columnas name y age
df.select("name", "age").show()
# Filtra por age > 30
df.filter(df["age"] > 30).show()
# Usa Where para filtrar un valor específico
df.where(df["age"] == 30).show()
# Usa Sort para ordenar por age
df.sort("age", ascending=False).show()
.sort() o .orderBy()na.drop() para eliminar filas con valores nulos# Ordena usando la columna age
df.sort("age", ascending=False).show()
# Elimina valores nulos
df.na.drop().show()
spark.read_json(): Cargar datos desde JSONspark.read.schema(): Definir esquemas explícitamente.na.drop(): Eliminar filas con valores nulos.select(), .filter(), .sort(), .orderBy(): Funciones básicas de manipulación de datosIntroducción a PySpark