Memodifikasi impor flat file

Pemasukan Data yang Efisien dengan pandas

Amany Mahfouz

Instructor

Data Pajak AS

tax_data = pd.read_csv('us_tax_data_2016.csv')

print(tax_data.shape)
(179796, 147)
Pemasukan Data yang Efisien dengan pandas

Membatasi kolom

  • Pilih kolom yang dimuat dengan argumen usecols
  • Menerima daftar nomor atau nama kolom, atau fungsi untuk memfilter nama kolom
col_names = ['STATEFIPS', 'STATE', 'zipcode', 'agi_stub', 'N1']

col_nums = [0, 1, 2, 3, 4]
# Pilih kolom berdasarkan nama tax_data_v1 = pd.read_csv('us_tax_data_2016.csv', usecols=col_names)
# Pilih kolom berdasarkan nomor tax_data_v2 = pd.read_csv('us_tax_data_2016.csv', usecols=col_nums)
print(tax_data_v1.equals(tax_data_v2))
True
Pemasukan Data yang Efisien dengan pandas

Membatasi baris

  • Batasi jumlah baris yang dimuat dengan argumen nrows
tax_data_first1000 = pd.read_csv('us_tax_data_2016.csv', nrows=1000)

print(tax_data_first1000.shape)
(1000, 147)
Pemasukan Data yang Efisien dengan pandas

Membatasi baris

  • Gunakan nrows dan skiprows bersama untuk memproses file per bagian
  • skiprows menerima daftar nomor baris, jumlah baris, atau fungsi untuk memfilter baris
  • Setel header=None agar pandas tahu tidak ada nama kolom
tax_data_next500 = pd.read_csv('us_tax_data_2016.csv', 
                               nrows=500, 
                               skiprows=1000, 
                               header=None)
Pemasukan Data yang Efisien dengan pandas

Membatasi baris

print(tax_data_next500.head(1))
   0   1      2    3     4     5    6    7     8     9     10   ...    136  137   138  139  140  141  142  143   144   145   146
0    1  AL  35565    4   270     0  250    0   210   790   280  ...   1854  260  1978    0    0    0    0   50   222   210   794

[1 rows x 147 columns]
Pemasukan Data yang Efisien dengan pandas

Memberi nama kolom

  • Beri nama kolom dengan menyuplai daftar ke argumen names
  • Daftar tersebut HARUS berisi nama untuk setiap kolom
  • Jika hanya perlu mengganti beberapa nama kolom, lakukan setelah impor!
Pemasukan Data yang Efisien dengan pandas

Memberi nama kolom

col_names = list(tax_data_first1000)

tax_data_next500 = pd.read_csv('us_tax_data_2016.csv',
nrows=500, skiprows=1000,
header=None,
names=col_names) print(tax_data_next500.head(1))
   STATEFIPS STATE  zipcode  agi_stub   ...  N11901  A11901  N11902  A11902
0          1    AL    35565         4   ...      50     222     210     794

[1 rows x 147 columns]
Pemasukan Data yang Efisien dengan pandas

Ayo berlatih!

Pemasukan Data yang Efisien dengan pandas

Preparing Video For Download...