Tips voor cluster-sizing

Data opschonen met PySpark

Mike Metzger

Data Engineering Consultant

Configuratie-opties

Spark heeft veel configuratie-instellingen
Pas ze aan naar behoefte
Config lezen:
```
spark.conf.get(<configuration name>)
```
Config schrijven
```
spark.conf.set(<configuration name>)
```

Clustertypen

Spark-deployopties:

Single node
Standalone
Managed
- YARN
- Mesos
- Kubernetes

Driver

Taaktoewijzing
Resultaten samenvoegen
Gedeelde data-toegang

Tips:

Drivernode: 2× zoveel geheugen als een worker
Snelle lokale opslag helpt

Worker

Voert de taken uit
Heeft idealiter alle code, data en resources voor de taak

Aanbevelingen:

Meer workers is vaak beter dan grotere workers
Test voor de juiste balans
Zeer snelle lokale opslag is erg nuttig

Laten we oefenen!

Data opschonen met PySpark

Preparing Video For Download...