Utilisation d'itérateurs pour charger des fichiers volumineux en mémoire

Boîte à outils Python

Hugo Bowne-Anderson

Data Scientist at DataCamp

Chargement des données par blocs

Il peut y avoir trop de données à conserver en mémoire
Solution : charger les données par blocs !
Fonction pandas : read_csv()
- Spécifier le bloc : chunksize

Itération sur les données

import pandas as pd
result = []

for chunk in pd.read_csv('data.csv', chunksize=1000):

    result.append(sum(chunk['x']))

total = sum(result)

print(total)

Itération sur les données

import pandas as pd
total = 0

for chunk in pd.read_csv('data.csv', chunksize=1000):
    total += sum(chunk['x'])

print(total)

Passons à la pratique !

Boîte à outils Python