Parquet’i Anlama

PySpark ile Veri Temizleme

Mike Metzger

Data Engineering Consultant

CSV dosyalarıyla zorluklar

Parquet dosyalarını okuma

df = spark.read.format('parquet').load('filename.parquet')

df = spark.read.parquet('filename.parquet')

Parquet dosyalarını yazma

df.write.format('parquet').save('filename.parquet')

df.write.parquet('filename.parquet')

SparkSQL işlemleri için Parquet’i arka uç olarak kullanma

flight_df = spark.read.parquet('flights.parquet')

flight_df.createOrReplaceTempView('flights')

short_flights_df = spark.sql('SELECT * FROM flights WHERE flightduration < 100')

PySpark ile Veri Temizleme