İçe aktarma performansını iyileştirin

PySpark ile Veri Temizleme

Mike Metzger

Data Engineering Consultant

Spark kümeleri

Spark Kümeleri iki tür süreçten oluşur

  • Sürücü süreci
  • İşçi süreçleri
PySpark ile Veri Temizleme

İçe aktarma performansı

Önemli parametreler:

  • Nesne sayısı (Dosyalar, ağ konumları, vb.)
    • Çok sayıda küçük nesne, az sayıda büyükten iyidir
    • Wildcard ile içe aktarılabilir
      airport_df = spark.read.csv('airports-*.txt.gz')
      
  • Nesnelerin genel boyutu
    • Benzer boyutlar Spark için daha iyidir
PySpark ile Veri Temizleme

Şemalar

İyi tanımlanmış bir şema içe aktarma performansını ciddi ölçüde artırır

  • Verinin birden çok kez okunmasını önler
  • İçe aktarmada doğrulama sağlar
PySpark ile Veri Temizleme

Nesneleri nasıl bölmeli

  • OS araçları/komut dosyaları kullanın (split, cut, awk)
    split -l 10000 -d largefile chunk-
    
  • Özel komut dosyaları kullanın
  • Parquet’e yazın
    df_csv = spark.read.csv('singlelargefile.csv')
    df_csv.write.parquet('data.parquet')
    df = spark.read.parquet('data.parquet')
    
PySpark ile Veri Temizleme

Haydi pratik yapalım!

PySpark ile Veri Temizleme

Preparing Video For Download...