Pengantar PySpark
Benjamin Schmidt
Data Engineer
spark.read.csv("path/to/file.csv")
spark.read.json("path/to/file.json")
spark.read.parquet("path/to/file.parquet")
Spark dapat menyimpulkan skema dari data dengan inferSchema=True
Tentukan skema secara manual untuk kontrol lebih baik - berguna untuk struktur data tetap

IntegerType: Bilangan bulat1, 3478, -18904569223347758063.14159"Ini adalah contoh string."# Impor tipe yang diperlukan sebagai kelas
from pyspark.sql.types import (StructType,
StructField, IntegerType,
StringType, ArrayType)
# Bangun skema
schema = StructType([
StructField("id", IntegerType(), True),
StructField("name", StringType(), True),
StructField("scores", ArrayType(IntegerType()), True)
])
# Tetapkan skema
df = spark.createDataFrame(data, schema=schema)
.select() untuk memilih kolom tertentu.filter() atau .where() untuk memfilter baris berdasarkan kondisi.sort() untuk mengurutkan berdasarkan kumpulan kolom# Pilih dan tampilkan hanya kolom nama dan usia
df.select("name", "age").show()
# Filter usia > 30
df.filter(df["age"] > 30).show()
# Gunakan Where untuk memfilter nilai tertentu
df.where(df["age"] == 30).show()
# Gunakan Sort untuk mengurutkan berdasarkan usia
df.sort("age", ascending=False).show()
.sort() atau .orderBy()na.drop() untuk menghapus baris dengan nilai null# Urutkan menggunakan kolom usia
df.sort("age", ascending=False).show()
# Hapus nilai yang hilang
df.na.drop().show()
spark.read_json(): Memuat data dari JSONspark.read.schema(): Menentukan skema secara eksplisit.na.drop(): Hapus baris dengan nilai yang hilang.select(), .filter(), .sort(), .orderBy(): Fungsi manipulasi data dasarPengantar PySpark