Riepilogo

Programmazione parallela con Dask in Python

James Fulton

Climate Informatics Researcher

Riepilogo - capitolo 1

  • Grafi di task
  • Valutazione lazy
  • Thread vs processi
  • dask.delayed()

Un task graph con un prodotto intermedio condiviso.

Programmazione parallela con Dask in Python

Riepilogo - capitolo 2

  • Analisi di grandi dati strutturati
  • Dask array
  • Dask DataFrame
  • Formati avanzati: h5py, zarr, parquet
  • Da pandas & numpy a dask

Mostra un array suddiviso in più chunk

Programmazione parallela con Dask in Python

Riepilogo - capitolo 3

  • Dask bag per dati grandi non strutturati e semi-strutturati
  • es. JSON, testo, audio

Diagramma di un dataset con video e audio.

Programmazione parallela con Dask in Python

Riepilogo - capitolo 4

  • Uso di LocalCluster e altri cluster
  • Dask-ML
  • Addestrare ML su big data
  • Preprocessing lazy di big data
Programmazione parallela con Dask in Python

Prossimi passi

Programmazione parallela con Dask in Python

Congratulazioni!

Programmazione parallela con Dask in Python

Preparing Video For Download...