Pengantar Spark SQL

Pengantar PySpark

Benjamin Schmidt

Data Engineer

Apa itu Spark SQL

  • Modul di Apache Spark untuk pemrosesan data terstruktur
  • Memungkinkan menjalankan kueri SQL bersamaan dengan tugas pemrosesan data
  • Kombinasi Python dan SQL dalam satu aplikasi
  • Antarmuka DataFrame: Akses programatik ke data terstruktur
Pengantar PySpark

Membuat tabel sementara

# Inisialisasi sesi Spark
spark = SparkSession.builder.appName("Contoh Spark SQL").getOrCreate()

# DataFrame contoh data = [("Alice", "HR", 30), ("Bob", "IT", 40), ("Cathy", "HR", 28)] columns = ["Name", "Department", "Age"] df = spark.createDataFrame(data, schema=columns)
# Daftarkan DataFrame sebagai tampilan sementara df.createOrReplaceTempView("people")
# Kueri menggunakan SQL result = spark.sql("SELECT Name, Age FROM people WHERE Age > 30") result.show()
Pengantar PySpark

Lebih dalam tentang tampilan sementara

  • Tampilan Sementara melindungi data dasar saat analitik
  • Memuat dari CSV menggunakan metode yang sudah kita ketahui
    df = spark.read.csv("path/to/your/file.csv", header=True, inferSchema=True)
    
# Daftarkan DataFrame sebagai tampilan sementara
df.createOrReplaceTempView("employees")
Pengantar PySpark

Menggabungkan operasi SQL dan DataFrame

# Hasil kueri SQL
query_result = spark.sql("SELECT Name, Salary FROM employees WHERE Salary > 3000")

# Transformasi DataFrame high_earners = query_result.withColumn("Bonus", query_result.Salary * 0.1) high_earners.show()
Pengantar PySpark

Mari berlatih!

Pengantar PySpark

Preparing Video For Download...