Küme boyutlandırma ipuçları

PySpark ile Veri Temizleme

Mike Metzger

Data Engineering Consultant

Yapılandırma seçenekleri

  • Spark çok sayıda yapılandırma ayarı içerir
  • Bunlar gereksinimlere göre değiştirilebilir
  • Yapılandırma okuma:
    spark.conf.get(<configuration name>)
    
  • Yapılandırma yazma
    spark.conf.set(<configuration name>)
    
PySpark ile Veri Temizleme

Küme türleri

Spark dağıtım seçenekleri:

  • Tek düğüm
  • Bağımsız
  • Yönetilen
    • YARN
    • Mesos
    • Kubernetes
PySpark ile Veri Temizleme

Sürücü

  • Görev ataması
  • Sonuç birleştirme
  • Paylaşılan veri erişimi

İpuçları:

  • Sürücü düğümü, işçiden iki kat bellekli olmalı
  • Hızlı yerel depolama faydalıdır
PySpark ile Veri Temizleme

İşçi

  • Asıl görevleri çalıştırır
  • İdealde, verilen görev için tüm kod, veri ve kaynaklara sahiptir

Öneriler:

  • Daha büyük işçilerden ziyade daha çok işçi genelde daha iyidir
  • Dengeyi bulmak için test edin
  • Çok hızlı yerel depolama çok yararlı
PySpark ile Veri Temizleme

Hadi pratik yapalım!

PySpark ile Veri Temizleme

Preparing Video For Download...