Afsluiting

Parallel programmeren met Dask in Python

James Fulton

Climate Informatics Researcher

Samenvatting - hoofdstuk 1

  • Taakgrafieken
  • Lui evalueren
  • Threads vs. processen
  • dask.delayed()

Een taakgrafiek met een gedeeld tussentijds resultaat.

Parallel programmeren met Dask in Python

Samenvatting - hoofdstuk 2

  • Grote gestructureerde data analyseren
  • Dask-arrays
  • Dask-DataFrames
  • Geavanceerde dataformaten: h5py, zarr, parquet
  • pandas & numpy -> dask

Toont een array verdeeld in meerdere chunks

Parallel programmeren met Dask in Python

Samenvatting - hoofdstuk 3

  • Dask-bags voor grote ongestructureerde en semigestructureerde data
  • Bijv. JSON, tekst en audio

Een diagram met een dataset met zowel video als geluid.

Parallel programmeren met Dask in Python

Samenvatting - hoofdstuk 4

  • LocalCluster en andere clusters gebruiken
  • Dask-ML
  • ML trainen op big data
  • Grote data lui preprocessen
Parallel programmeren met Dask in Python

Volgende stappen

  • Een breder scala aan functies voor
    • Dask-arrays
    • Dask-DataFrames
    • Dask-bags
  • Documentatie op
Parallel programmeren met Dask in Python

Gefeliciteerd!

Parallel programmeren met Dask in Python

Preparing Video For Download...