PySpark ile Veri Temizleme
Mike Metzger
Data Engineering Consultant
Parquet dosyalarını okuma
df = spark.read.format('parquet').load('filename.parquet')
df = spark.read.parquet('filename.parquet')
Parquet dosyalarını yazma
df.write.format('parquet').save('filename.parquet')
df.write.parquet('filename.parquet')
SparkSQL işlemleri için Parquet’i arka uç olarak kullanma
flight_df = spark.read.parquet('flights.parquet')
flight_df.createOrReplaceTempView('flights')
short_flights_df = spark.sql('SELECT * FROM flights WHERE flightduration < 100')
PySpark ile Veri Temizleme