Spark SQL'ye Giriş

PySpark'e Giriş

Benjamin Schmidt

Data Engineer

Spark SQL Nedir

  • Yapısal veri işleme için Apache Spark modülü
  • SQL sorgularını veri işleme görevleriyle birlikte çalıştırmamıza olanak tanır
  • Tek bir uygulamada Python ve SQL'in sorunsuz birleşimi
  • DataFrame Arayüzü: Yapısal verilere programatik erişim sağlar
PySpark'e Giriş

Geçici Tablolar Oluşturma

# Spark oturumunu başlat
spark = SparkSession.builder.appName("Spark SQL Örneği").getOrCreate()

# Örnek DataFrame data = [("Alice", "İK", 30), ("Bob", "BT", 40), ("Cathy", "İK", 28)] columns = ["Ad", "Bölüm", "Yaş"] df = spark.createDataFrame(data, schema=columns)
# DataFrame'i geçici görünüm olarak kaydet df.createOrReplaceTempView("people")
# SQL kullanarak sorgula result = spark.sql("SELECT Ad, Yaş FROM people WHERE Yaş > 30") result.show()
PySpark'e Giriş

Geçici Görünümler Üzerine Derinlemesine

  • Geçici Görünümler, analiz yaparken temel veriyi korur
  • CSV'den yükleme, bildiğimiz yöntemleri kullanır
    df = spark.read.csv("path/to/your/file.csv", header=True, inferSchema=True)
    
# DataFrame'i geçici görünüm olarak kaydet
df.createOrReplaceTempView("employees")
PySpark'e Giriş

SQL ve DataFrame İşlemlerini Birleştirme

# SQL sorgu sonucu
query_result = spark.sql("SELECT Ad, Maaş FROM employees WHERE Maaş > 3000")

# DataFrame dönüşümü high_earners = query_result.withColumn("Bonus", query_result.Maaş * 0.1) high_earners.show()
PySpark'e Giriş

Hadi pratik yapalım!

PySpark'e Giriş

Preparing Video For Download...