Introdução ao Spark SQL

Introdução ao PySpark

Benjamin Schmidt

Data Engineer

O que é Spark SQL

  • Módulo no Apache Spark para processar dados estruturados
  • Permite executar consultas SQL junto com tarefas de processamento de dados
  • Combinação perfeita de Python e SQL em uma aplicação
  • Interface DataFrame: Acesso programático a dados estruturados
Introdução ao PySpark

Criando tabelas temporárias

# Inicializar sessão Spark
spark = SparkSession.builder.appName("Exemplo Spark SQL").getOrCreate()

# DataFrame de exemplo data = [("Alice", "RH", 30), ("Bob", "TI", 40), ("Cathy", "RH", 28)] columns = ["Nome", "Departamento", "Idade"] df = spark.createDataFrame(data, schema=columns)
# Registrar DataFrame como uma visão temporária df.createOrReplaceTempView("pessoas")
# Consultar usando SQL result = spark.sql("SELECT Nome, Idade FROM pessoas WHERE Idade > 30") result.show()
Introdução ao PySpark

Aprofundando em visões temporárias

  • Visões temporárias protegem os dados enquanto fazemos análises
  • Carregar de um CSV usa métodos que já conhecemos
    df = spark.read.csv("path/to/your/file.csv", header=True, inferSchema=True)
    
# Registrar DataFrame como uma visão temporária
df.createOrReplaceTempView("funcionarios")
Introdução ao PySpark

Combinando operações SQL e DataFrame

# Resultado da consulta SQL
query_result = spark.sql("SELECT Nome, Salário FROM funcionarios WHERE Salário > 3000")

# Transformação de DataFrame altos_salarios = query_result.withColumn("Bônus", query_result.Salário * 0.1) altos_salarios.show()
Introdução ao PySpark

Vamos praticar!

Introdução ao PySpark

Preparing Video For Download...