PySpark'e Giriş
Benjamin Schmidt
Data Engineer
PySpark'ı Makine Öğrenimi, ETL görevleri ve daha fazlası için kullandı
Herkes için yeni araçlar öğretmeye hevesli
-
Dağıtık veri işleme: Büyük veri kümelerini kümeler arasında işlemek için tasarlanmıştır
CSV, Parquet ve JSON dahil çeşitli veri formatlarını destekler
SQL entegrasyonu, hem Python hem de SQL sözdizimi ile veri sorgulamaya olanak tanır
Ölçekli hız için optimize edilmiştir

Büyük veri analitiği
Dağıtık veri işleme
Gerçek zamanlı veri akışı
Büyük veri kümeleri üzerinde makine öğrenimi
ETL ve ELT hatları
Çeşitli veri kaynaklarıyla çalışma:


# SparkSession'ı içe aktar
from pyspark.sql import SparkSession
# Bir SparkSession başlat
spark = SparkSession.builder.appName("MySparkApp").getOrCreate()
$$
.builder() bir oturum kurargetOrCreate() oturum oluşturur veya mevcut olanı alır.appName() birden fazla oturumu yönetmeye yardımcı olur# Bir Spark oturumu içe aktar ve başlat
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("MySparkApp").getOrCreate()
# Bir DataFrame oluştur
census_df = spark.read.csv("census.csv",
["gender","age","zipcode","salary_range_usd","marriage_status"])
# DataFrame'i göster
census_df.show()
PySpark'e Giriş