Tips voor cluster-sizing

Data opschonen met PySpark

Mike Metzger

Data Engineering Consultant

Configuratie-opties

  • Spark heeft veel configuratie-instellingen
  • Pas ze aan naar behoefte
  • Config lezen:
    spark.conf.get(<configuration name>)
    
  • Config schrijven
    spark.conf.set(<configuration name>)
    
Data opschonen met PySpark

Clustertypen

Spark-deployopties:

  • Single node
  • Standalone
  • Managed
    • YARN
    • Mesos
    • Kubernetes
Data opschonen met PySpark

Driver

  • Taaktoewijzing
  • Resultaten samenvoegen
  • Gedeelde data-toegang

Tips:

  • Drivernode: 2× zoveel geheugen als een worker
  • Snelle lokale opslag helpt
Data opschonen met PySpark

Worker

  • Voert de taken uit
  • Heeft idealiter alle code, data en resources voor de taak

Aanbevelingen:

  • Meer workers is vaak beter dan grotere workers
  • Test voor de juiste balans
  • Zeer snelle lokale opslag is erg nuttig
Data opschonen met PySpark

Laten we oefenen!

Data opschonen met PySpark

Preparing Video For Download...