Flatfile-imports aanpassen

Gestroomlijnde data-inname met pandas

Amany Mahfouz

Instructor

Belastingdata VS

tax_data = pd.read_csv('us_tax_data_2016.csv')

print(tax_data.shape)
(179796, 147)
Gestroomlijnde data-inname met pandas

Kolommen beperken

  • Kies te laden kolommen met het keyword-argument usecols
  • Accepteert een lijst met kolomnummers of -namen, of een functie om kolomnamen te filteren
col_names = ['STATEFIPS', 'STATE', 'zipcode', 'agi_stub', 'N1']

col_nums = [0, 1, 2, 3, 4]
# Kolommen kiezen op naam tax_data_v1 = pd.read_csv('us_tax_data_2016.csv', usecols=col_names)
# Kolommen kiezen op nummer tax_data_v2 = pd.read_csv('us_tax_data_2016.csv', usecols=col_nums)
print(tax_data_v1.equals(tax_data_v2))
True
Gestroomlijnde data-inname met pandas

Rijen beperken

  • Beperk het aantal geladen rijen met het keyword-argument nrows
tax_data_first1000 = pd.read_csv('us_tax_data_2016.csv', nrows=1000)

print(tax_data_first1000.shape)
(1000, 147)
Gestroomlijnde data-inname met pandas

Rijen beperken

  • Gebruik nrows en skiprows samen om een bestand in chunks te verwerken
  • skiprows accepteert een lijst met rijnummers, een aantal rijen of een functie om rijen te filteren
  • Zet header=None zodat pandas weet dat er geen kolomnamen zijn
tax_data_next500 = pd.read_csv('us_tax_data_2016.csv', 
                               nrows=500, 
                               skiprows=1000, 
                               header=None)
Gestroomlijnde data-inname met pandas

Rijen beperken

print(tax_data_next500.head(1))
   0   1      2    3     4     5    6    7     8     9     10   ...    136  137   138  139  140  141  142  143   144   145   146
0    1  AL  35565    4   270     0  250    0   210   790   280  ...   1854  260  1978    0    0    0    0   50   222   210   794

[1 rows x 147 columns]
Gestroomlijnde data-inname met pandas

Kolomnamen toekennen

  • Geef kolomnamen op via de lijst in het argument names
  • De lijst MOET een naam bevatten voor elke kolom in je data
  • Als je maar een paar kolommen wilt hernoemen, doe dat na het importeren!
Gestroomlijnde data-inname met pandas

Kolomnamen toekennen

col_names = list(tax_data_first1000)

tax_data_next500 = pd.read_csv('us_tax_data_2016.csv',
nrows=500, skiprows=1000,
header=None,
names=col_names) print(tax_data_next500.head(1))
   STATEFIPS STATE  zipcode  agi_stub   ...  N11901  A11901  N11902  A11902
0          1    AL    35565         4   ...      50     222     210     794

[1 rows x 147 columns]
Gestroomlijnde data-inname met pandas

Laten we oefenen!

Gestroomlijnde data-inname met pandas

Preparing Video For Download...