Introductie tot flat files

Gestroomlijnde data-inname met pandas

Amany Mahfouz

Instructor

pandas

pandas-logo

Gestroomlijnde data-inname met pandas

DataFrames

  • pandas-specifieke structuur voor tweedimensionale data

Dataframe met landen, hoofdsteden en landoppervlak in vierkante mijlen

Gestroomlijnde data-inname met pandas

DataFrames

  • pandas-specifieke structuur voor tweedimensionale data

Dataframe met kolomlabels (Country, Population en Area (sq. mi.)) gemarkeerd

Gestroomlijnde data-inname met pandas

DataFrames

  • pandas-specifieke structuur voor tweedimensionale data

Dataframe met rijlabels/indices gemarkeerd

Gestroomlijnde data-inname met pandas

Flat files

  • Simpel, makkelijk te maken formaat
  • Data als platte tekst (geen opmaak)
  • Eén rij per regel
  • Waarden gescheiden door een scheidingsteken
  • Meest gebruikt: comma-separated values
  • Eén pandas-functie om ze te laden: read_csv()
Gestroomlijnde data-inname met pandas

CSV's laden

  • Voorbeeld van us_tax_data_2016.csv
STATEFIPS,STATE,zipcode,agi_stub,...,N11901,A11901,N11902,A11902
1,AL,0,1,...,63420,51444,711580,1831661
import pandas as pd

tax_data = pd.read_csv("us_tax_data_2016.csv")
tax_data.head(4)
   STATEFIPS STATE  zipcode  agi_stub   ...     N11901  A11901  N11902   A11902
0          1    AL        0         1   ...      63420   51444  711580  1831661
1          1    AL        0         2   ...      74090  110889  416090  1173463
2          1    AL        0         3   ...      64000  143060  195130   543284
3          1    AL        0         4   ...      45020  128920  117410   381329

[4 rijen x 147 kolommen]
Gestroomlijnde data-inname met pandas

Andere flat files laden

  • Gebruik een andere scheidingsteken met sep
  • Voorbeeld van us_tax_data_2016.tsv
    STATEFIPS    STATE    zipcode    agi_stub    ...    N11901    A11901    N11902    A11902
    1    AL    0    1    ...    63420    51444    711580    1831661
    
import pandas as pd

tax_data = pd.read_csv("us_tax_data_2016.tsv", sep="\t")
tax_data.head(3)
   STATEFIPS STATE  zipcode  agi_stub   ...     N11901  A11901  N11902   A11902
0          1    AL        0         1   ...      63420   51444  711580  1831661
1          1    AL        0         2   ...      74090  110889  416090  1173463
2          1    AL        0         3   ...      64000  143060  195130   543284

[3 rijen x 147 kolommen]
Gestroomlijnde data-inname met pandas

Laten we oefenen!

Gestroomlijnde data-inname met pandas

Preparing Video For Download...