Machine Learning e Spark

Machine Learning con PySpark

Andrew Collier

Data Scientist, Fathom Data

Costruire il waffle perfetto (un'analogia)

Un singolo waffle.

Trova una ricetta per waffle. Dai istruzioni esplicite:

  • 125 g farina
  • 1 cucchiaino lievito
  • 1 uovo
  • 225 ml latte
  • 1 cucchiaio burro fuso

Una raccolta di waffle.

Trova molte ricette di waffle.

Impara la ricetta perfetta:

  1. Guarda molte ricette.
  2. Quali ingredienti?
  3. Quali proporzioni?

Il computer genera le proprie istruzioni.

Machine Learning con PySpark

Un grafico farina vs zucchero per un modello di regressione. Un grafico sale vs zucchero per un problema di classificazione.

Machine Learning con PySpark

Dati in RAM

Quando i dati sono piccoli, l'intero problema può stare in RAM.

Machine Learning con PySpark

Dati oltre la RAM

Quando i dati sono troppo grandi per la RAM, vengono spostati su disco.

Machine Learning con PySpark

Dati distribuiti su un cluster

Per dati molto grandi ha senso distribuire i dati su più computer.

Machine Learning con PySpark

Cos'è Spark?

Il logo di Spark.

  • Calcolo su un cluster distribuito.
  • Dati elaborati in memoria.
  • API ad alto livello, ben documentata.
Machine Learning con PySpark

Una raccolta di nodi in un cluster.

Machine Learning con PySpark

Una raccolta di nodi in un cluster con un cluster manager.

Machine Learning con PySpark

Una raccolta di nodi in un cluster con cluster manager e driver.

Machine Learning con PySpark

Executor su ogni nodo del cluster.

Machine Learning con PySpark

Avanti!

Machine Learning con PySpark

Preparing Video For Download...