Iteratoren verwenden, um große Dateien in den Speicher zu laden

Python Toolbox

Hugo Bowne-Anderson

Data Scientist at DataCamp

Daten in Blöcken laden

  • Es kann vorkommen, dass die Daten nicht in den Speicher passe.
  • Lösung: Daten in kleineren Blöcken laden
  • pandas-Funktion: read_csv()
    • Blockgröße definieren: chunksize
Python Toolbox

Über Daten iterieren

import pandas as pd
result = []

for chunk in pd.read_csv('data.csv', chunksize=1000):
result.append(sum(chunk['x']))
total = sum(result)
print(total)
4252532
Python Toolbox

Über Daten iterieren

import pandas as pd
total = 0

for chunk in pd.read_csv('data.csv', chunksize=1000): total += sum(chunk['x'])
print(total)
4252532
Python Toolbox

Lass uns üben!

Python Toolbox

Preparing Video For Download...