Usando iteradores para carregar arquivos grandes na memória

Caixa de ferramentas Python

Hugo Bowne-Anderson

Data Scientist at DataCamp

Carregando dados em blocos

  • Pode haver dados demais para caber na memória
  • Solução: carregue em blocos!
  • Função do pandas: read_csv()
    • Tamanho do bloco: chunksize
Caixa de ferramentas Python

Iterando sobre os dados

import pandas as pd
result = []

for chunk in pd.read_csv('data.csv', chunksize=1000):
result.append(sum(chunk['x']))
total = sum(result)
print(total)
4252532
Caixa de ferramentas Python

Iterando sobre os dados

import pandas as pd
total = 0

for chunk in pd.read_csv('data.csv', chunksize=1000): total += sum(chunk['x'])
print(total)
4252532
Caixa de ferramentas Python

Vamos praticar!

Caixa de ferramentas Python

Preparing Video For Download...