Utilisation d'itérateurs pour charger des fichiers volumineux en mémoire

Boîte à outils Python

Hugo Bowne-Anderson

Data Scientist at DataCamp

Chargement des données par blocs

  • Il peut y avoir trop de données à conserver en mémoire
  • Solution : charger les données par blocs !
  • Fonction pandas : read_csv()
    • Spécifier le bloc : chunksize
Boîte à outils Python

Itération sur les données

import pandas as pd
result = []

for chunk in pd.read_csv('data.csv', chunksize=1000):
result.append(sum(chunk['x']))
total = sum(result)
print(total)
4252532
Boîte à outils Python

Itération sur les données

import pandas as pd
total = 0

for chunk in pd.read_csv('data.csv', chunksize=1000): total += sum(chunk['x'])
print(total)
4252532
Boîte à outils Python

Passons à la pratique !

Boîte à outils Python

Preparing Video For Download...