Introdução ao PySpark
Benjamin Schmidt
Data Engineer
# Inicializar sessão Spark spark = SparkSession.builder.appName("Exemplo Spark SQL").getOrCreate()# DataFrame de exemplo data = [("Alice", "RH", 30), ("Bob", "TI", 40), ("Cathy", "RH", 28)] columns = ["Nome", "Departamento", "Idade"] df = spark.createDataFrame(data, schema=columns)# Registrar DataFrame como uma visão temporária df.createOrReplaceTempView("pessoas")# Consultar usando SQL result = spark.sql("SELECT Nome, Idade FROM pessoas WHERE Idade > 30") result.show()
df = spark.read.csv("path/to/your/file.csv", header=True, inferSchema=True)
# Registrar DataFrame como uma visão temporária
df.createOrReplaceTempView("funcionarios")
# Resultado da consulta SQL query_result = spark.sql("SELECT Nome, Salário FROM funcionarios WHERE Salário > 3000")# Transformação de DataFrame altos_salarios = query_result.withColumn("Bônus", query_result.Salário * 0.1) altos_salarios.show()
Introdução ao PySpark