Menggunakan iterator untuk memuat file besar ke memori

Kotak Perkakas Python

Hugo Bowne-Anderson

Data Scientist at DataCamp

Memuat data per blok

  • Data bisa terlalu besar untuk muat di memori
  • Solusi: muat data per blok!
  • Fungsi pandas: read_csv()
    • Tentukan ukuran blok: chunksize
Kotak Perkakas Python

Melakukan iterasi atas data

import pandas as pd
result = []

for chunk in pd.read_csv('data.csv', chunksize=1000):
result.append(sum(chunk['x']))
total = sum(result)
print(total)
4252532
Kotak Perkakas Python

Melakukan iterasi atas data

import pandas as pd
total = 0

for chunk in pd.read_csv('data.csv', chunksize=1000): total += sum(chunk['x'])
print(total)
4252532
Kotak Perkakas Python

Ayo berlatih!

Kotak Perkakas Python

Preparing Video For Download...