PySpark'e Giriş
Benjamin Schmidt
Data Engineer
spark.sql(){{1}} ile çalışır# SQL toplulaştırma sorgusu
spark.sql("""
SELECT Department, SUM(Salary) AS Total_Salary, AVG(Salary) AS Average_Salary
FROM employees
GROUP BY Department
""").show()
# 3000'den fazla maaşları filtrele filtered_df = df.filter(df.Salary > 3000) # Filtrelenmiş DataFrame'i bir görünüm olarak kaydet filtered_df.createOrReplaceTempView("filtered_employees")# Filtrelenmiş görünümde SQL kullanarak toplulaştırma yap spark.sql(""" SELECT Department, COUNT(*) AS Employee_Count FROM filtered_employees GROUP BY Department """).show()
# Tür dönüştürme örneği data = [("HR", "3000"), ("IT", "4000"), ("Finance", "3500")] columns = ["Department", "Salary"] df = spark.createDataFrame(data, schema=columns)# Maaş sütununu tam sayıya dönüştür df = df.withColumn("Salary", df["Salary"].cast("int")) # Toplulaştırma yap df.groupBy("Department").sum("Salary").show()
# RDD'lerle toplulaştırma örneği rdd = df.rdd.map(lambda row: (row["Department"], row["Salary"]))rdd_aggregated = rdd.reduceByKey(lambda x, y: x + y)print(rdd_aggregated.collect())
groupBy() gibi işlemleri en aza indirinexplain() kullanınSUM() ve AVERAGE() gibi fonksiyonlarPySpark'e Giriş