Pengantar PySpark
Benjamin Schmidt
Data Engineer
Menggunakan PySpark untuk Pembelajaran Mesin, tugas ETL, dan banyak lagi
Pengajar antusias alat baru untuk semua!
-
Pemrosesan data terdistribusi: Dirancang untuk menangani dataset besar di seluruh kluster
Mendukung berbagai format data termasuk CSV, Parquet, dan JSON
Integrasi SQL memungkinkan kueri data menggunakan sintaks Python dan SQL
Dioptimalkan untuk kecepatan dalam skala besar

Analitik data besar
Pemrosesan data terdistribusi
Streaming data real-time
Pembelajaran mesin pada dataset besar
Pipeline ETL dan ELT
Bekerja dengan berbagai sumber data:


# Impor SparkSession
from pyspark.sql import SparkSession
# Inisialisasi SparkSession
spark = SparkSession.builder.appName("MySparkApp").getOrCreate()
$$
.builder() menyiapkan sesigetOrCreate() membuat atau mengambil sesi.appName() membantu mengelola beberapa sesi# Impor dan inisialisasi sesi Spark
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("MySparkApp").getOrCreate()
# Buat DataFrame
census_df = spark.read.csv("census.csv",
["gender","age","zipcode","salary_range_usd","marriage_status"])
# Tampilkan DataFrame
census_df.show()
Pengantar PySpark