PySpark'e Giriş
Benjamin Schmidt
Data Engineer
spark.read.csv("path/to/file.csv")
spark.read.json("path/to/file.json")
spark.read.parquet("path/to/file.parquet")
Spark, inferSchema=True ile şemaları veriden çıkarabilir
Sabit veri yapıları için daha iyi kontrol sağlamak amacıyla şemayı manuel tanımlayın

IntegerType: Tam sayılar1, 3478, -18904569223347758063.14159"Bu bir dize örneğidir."# Gerekli türleri sınıf olarak içe aktarın
from pyspark.sql.types import (StructType,
StructField, IntegerType,
StringType, ArrayType)
# Şemayı oluşturun
schema = StructType([
StructField("id", IntegerType(), True),
StructField("name", StringType(), True),
StructField("scores", ArrayType(IntegerType()), True)
])
# Şemayı ayarlayın
df = spark.createDataFrame(data, schema=schema)
.select() kullanın.filter() veya .where() kullanın.sort() kullanın# Yalnızca isim ve yaş sütunlarını seçip gösterin
df.select("name", "age").show()
# Yaşı 30'dan büyük olanları filtreleyin
df.filter(df["age"] > 30).show()
# Belirli bir değeri eşleştirmek için Where kullanın
df.where(df["age"] == 30).show()
# Yaşa göre sıralamak için Sort kullanın
df.sort("age", ascending=False).show()
.sort() veya .orderBy() ile sıralayınna.drop() kullanın# Yaş sütununu kullanarak sıralayın
df.sort("age", ascending=False).show()
# Eksik değerleri kaldırın
df.na.drop().show()
spark.read_json(): JSON'dan veri yükleyinspark.read.schema(): Şemaları açıkça tanımlayın.na.drop(): Eksik değer içeren satırları kaldırın.select(), .filter(), .sort(), .orderBy(): Temel veri manipülasyon fonksiyonlarıPySpark'e Giriş