Introdução ao PySpark
Benjamin Schmidt
Data Engineer
spark.read.csv("path/to/file.csv")
spark.read.json("path/to/file.json")
spark.read.parquet("path/to/file.parquet")
Spark pode inferir esquemas dos dados com inferSchema=True
Defina esquemas manualmente para melhor controle - útil para estruturas de dados fixas

IntegerType: Números inteiros1, 3478, -18904569223347758063.14159"Este é um exemplo de string."# Importe os tipos necessários como classes
from pyspark.sql.types import (StructType,
StructField, IntegerType,
StringType, ArrayType)
# Construa o esquema
schema = StructType([
StructField("id", IntegerType(), True),
StructField("name", StringType(), True),
StructField("scores", ArrayType(IntegerType()), True)
])
# Defina o esquema
df = spark.createDataFrame(data, schema=schema)
.select() para escolher colunas específicas.filter() ou .where() para filtrar linhas com base em condições.sort() para ordenar por colunas# Selecione e mostre apenas as colunas nome e idade
df.select("name", "age").show()
# Filtre por idade > 30
df.filter(df["age"] > 30).show()
# Use Where para filtrar um valor específico
df.where(df["age"] == 30).show()
# Use Sort para ordenar por idade
df.sort("age", ascending=False).show()
.sort() ou .orderBy()na.drop() para remover linhas com valores nulos# Ordene usando a coluna idade
df.sort("age", ascending=False).show()
# Remova valores ausentes
df.na.drop().show()
spark.read_json(): Carregar dados de JSONspark.read.schema(): Definir esquemas explicitamente.na.drop(): Remover linhas com valores ausentes.select(), .filter(), .sort(), .orderBy(): Funções básicas de manipulação de dadosIntrodução ao PySpark