Introdução ao Spark SQL

Introdução ao PySpark

Benjamin Schmidt

Data Engineer

O que é Spark SQL

Módulo no Apache Spark para processar dados estruturados
Permite executar consultas SQL junto com tarefas de processamento de dados
Combinação perfeita de Python e SQL em uma aplicação

Interface DataFrame: Acesso programático a dados estruturados

Criando tabelas temporárias

# Inicializar sessão Spark
spark = SparkSession.builder.appName("Exemplo Spark SQL").getOrCreate()

# DataFrame de exemplo
data = [("Alice", "RH", 30), ("Bob", "TI", 40), ("Cathy", "RH", 28)]
columns = ["Nome", "Departamento", "Idade"]
df = spark.createDataFrame(data, schema=columns)

# Registrar DataFrame como uma visão temporária
df.createOrReplaceTempView("pessoas")

# Consultar usando SQL
result = spark.sql("SELECT Nome, Idade FROM pessoas WHERE Idade > 30")
result.show()

Aprofundando em visões temporárias

Visões temporárias protegem os dados enquanto fazemos análises

Carregar de um CSV usa métodos que já conhecemos

df = spark.read.csv("path/to/your/file.csv", header=True, inferSchema=True)

# Registrar DataFrame como uma visão temporária
df.createOrReplaceTempView("funcionarios")

Combinando operações SQL e DataFrame

# Resultado da consulta SQL
query_result = spark.sql("SELECT Nome, Salário FROM funcionarios WHERE Salário > 3000")

# Transformação de DataFrame
altos_salarios = query_result.withColumn("Bônus", query_result.Salário * 0.1)
altos_salarios.show()

Vamos praticar!

Introdução ao PySpark