Pemasukan Data yang Efisien dengan pandas
Amany Mahfouz
Instructor
tax_data = pd.read_csv('us_tax_data_2016.csv')
print(tax_data.shape)
(179796, 147)
usecolscol_names = ['STATEFIPS', 'STATE', 'zipcode', 'agi_stub', 'N1']col_nums = [0, 1, 2, 3, 4]# Pilih kolom berdasarkan nama tax_data_v1 = pd.read_csv('us_tax_data_2016.csv', usecols=col_names)# Pilih kolom berdasarkan nomor tax_data_v2 = pd.read_csv('us_tax_data_2016.csv', usecols=col_nums)print(tax_data_v1.equals(tax_data_v2))
True
nrowstax_data_first1000 = pd.read_csv('us_tax_data_2016.csv', nrows=1000)print(tax_data_first1000.shape)
(1000, 147)
nrows dan skiprows bersama untuk memproses file per bagianskiprows menerima daftar nomor baris, jumlah baris, atau fungsi untuk memfilter barisheader=None agar pandas tahu tidak ada nama kolomtax_data_next500 = pd.read_csv('us_tax_data_2016.csv',
nrows=500,
skiprows=1000,
header=None)
print(tax_data_next500.head(1))
0 1 2 3 4 5 6 7 8 9 10 ... 136 137 138 139 140 141 142 143 144 145 146
0 1 AL 35565 4 270 0 250 0 210 790 280 ... 1854 260 1978 0 0 0 0 50 222 210 794
[1 rows x 147 columns]
namescol_names = list(tax_data_first1000)tax_data_next500 = pd.read_csv('us_tax_data_2016.csv',nrows=500, skiprows=1000,header=None,names=col_names) print(tax_data_next500.head(1))
STATEFIPS STATE zipcode agi_stub ... N11901 A11901 N11902 A11902
0 1 AL 35565 4 ... 50 222 210 794
[1 rows x 147 columns]
Pemasukan Data yang Efisien dengan pandas