İçe aktarma performansını iyileştirin

PySpark ile Veri Temizleme

Mike Metzger

Data Engineering Consultant

Spark kümeleri

Spark Kümeleri iki tür süreçten oluşur

Önemli parametreler:

İyi tanımlanmış bir şema içe aktarma performansını ciddi ölçüde artırır

OS araçları/komut dosyaları kullanın (split, cut, awk)
```
split -l 10000 -d largefile chunk-
```
Özel komut dosyaları kullanın

Parquet’e yazın

df_csv = spark.read.csv('singlelargefile.csv')
df_csv.write.parquet('data.parquet')
df = spark.read.parquet('data.parquet')

PySpark ile Veri Temizleme