Usar iteradores para cargar archivos grandes en memoria

Caja de herramientas Python

Hugo Bowne-Anderson

Data Scientist at DataCamp

Cargar datos por bloques

  • Puede haber demasiados datos para la memoria
  • Solución: carga en bloques
  • Función de pandas: read_csv()
    • Tamaño del bloque: chunksize
Caja de herramientas Python

Iterar sobre los datos

import pandas as pd
result = []

for chunk in pd.read_csv('data.csv', chunksize=1000):
result.append(sum(chunk['x']))
total = sum(result)
print(total)
4252532
Caja de herramientas Python

Iterar sobre los datos

import pandas as pd
total = 0

for chunk in pd.read_csv('data.csv', chunksize=1000): total += sum(chunk['x'])
print(total)
4252532
Caja de herramientas Python

¡Vamos a practicar!

Caja de herramientas Python

Preparing Video For Download...