Machine learning & Spark

Machine Learning met PySpark

Andrew Collier

Data Scientist, Fathom Data

De perfecte wafel maken (een analogie)

Een enkele wafel.

Zoek een wafelrecept. Geef expliciete instructies:

  • 125 g bloem
  • 1 t bakpoeder
  • 1 ei
  • 225 ml melk
  • 1 E gesmolten boter

Een verzameling wafels.

Zoek veel wafelrecepten.

Leer het perfecte recept:

  1. Bekijk veel recepten.
  2. Welke ingrediënten?
  3. Welke verhoudingen?

Computer maakt z’n eigen instructies.

Machine Learning met PySpark

Een plot van bloem versus suiker voor een regressiemodel. Een plot van zout versus suiker voor een classificatieprobleem.

Machine Learning met PySpark

Data in RAM

Als data klein zijn past het hele probleem in RAM.

Machine Learning met PySpark

Data groter dan RAM

Als data te groot zijn voor RAM, wordt er naar schijf geswapt.

Machine Learning met PySpark

Data verdeeld over een cluster

Voor zeer grote data is het logisch om de data over meerdere computers te verdelen.

Machine Learning met PySpark

Wat is Spark?

Het Spark-logo.

  • Rekenwerk over een gedistribueerd cluster.
  • Data verwerkt in geheugen.
  • Goed gedocumenteerde high-level API.
Machine Learning met PySpark

Een verzameling nodes in een cluster.

Machine Learning met PySpark

Een verzameling nodes in een cluster met een cluster manager.

Machine Learning met PySpark

Een verzameling nodes in een cluster met een cluster manager en driver.

Machine Learning met PySpark

Executors op elke node in het cluster.

Machine Learning met PySpark

Vooruit!

Machine Learning met PySpark

Preparing Video For Download...