Multidimensionale arrays

Parallel programmeren met Dask in Python

James Fulton

Climate Informatics Researcher

Soorten multidimensionale data

  • Weersverwachtingen/-waarnemingen
  • 3D-biomedische scans
  • Satellietbeelden
  • Data van andere wetenschappelijke instrumenten
Parallel programmeren met Dask in Python

HDF5

Het HDF-logo

  • Hierarchical Data Format
  • Opgeslagen in hiërarchische structuur — zoals (sub)mappen
Parallel programmeren met Dask in Python

Hoe ziet een HDF5-bestand eruit?

Een enkele map

Parallel programmeren met Dask in Python

Hoe ziet een HDF5-bestand eruit?

Een enkele map met vier datasets en wat metadata.

Parallel programmeren met Dask in Python

Navigeren in HDF5-bestanden met h5py

import h5py

# Open the HDF5 file
file = h5py.File('data.hdf5')


# Print the available datasets inside the file print(file.keys())
<KeysViewHDF5 ['A', 'B', 'C', 'D']>
Parallel programmeren met Dask in Python

Navigeren in HDF5-bestanden met h5py

import h5py

# Open the HDF5 file
file = h5py.File('data.hdf5')


# Select dataset A dataset_a = file['/A']
print(dataset_a)
<HDF5 dataset "A": shape (10000, 100, 100), type "<f4">
Parallel programmeren met Dask in Python

Laden uit HDF5

import dask.array as da

# Load dataset into a Dask array a = da.from_array(dataset_a, chunks=(100, 20, 20))
print(a)
dask.array<array, shape=(10000, 100, 100), dtype=float32, chunksize=(100, 20, 20),
    chunktype=numpy.ndarray>
Parallel programmeren met Dask in Python

Zarr

  • Hiërarchische dataset zoals HDF5
  • Ontworpen voor chunking
  • Goed voor streaming via cloudplatforms zoals AWS, Google Cloud, enz.
  • Navigeerbare bestandsstructuur
Parallel programmeren met Dask in Python

Laden uit Zarr

import dask.array as da

a = da.from_zarr("dataset.zarr", component="A")


print(a)
dask.array<from-zarr, shape=(10000, 100, 100), dtype=float32,
    chunksize=(100, 20, 20), chunktype=numpy.ndarray>
Parallel programmeren met Dask in Python

Laten we oefenen!

Parallel programmeren met Dask in Python

Preparing Video For Download...