Introductie tot spreadsheets

Gestroomlijnde data-inname met pandas

Amany Mahfouz

Instructor

Spreadsheets

Ook bekend als Excel-bestanden
Gegevens in tabelvorm, met cellen in rijen en kolommen
In tegenstelling tot flat files kunnen ze opmaak en formules bevatten
Meerdere spreadsheets kunnen in één werkmap staan

Spreadsheets laden

Spreadsheets hebben in pandas een eigen laadfunctie: read_excel()

Schermafbeelding van FreeCodeCamps New Developer Survey-gegevens in een spreadsheetprogramma

Spreadsheets laden

import pandas as pd

# Read the Excel file
survey_data = pd.read_excel("fcc_survey.xlsx")


# View the first 5 lines of data
print(survey_data.head())

    Age  AttendedBootcamp       ...                    SchoolMajor  StudentDebtOwe
0  28.0               0.0       ...                            NaN           20000
1  22.0               0.0       ...                            NaN             NaN
2  19.0               0.0       ...                            NaN             NaN
3  26.0               0.0       ...        Cinematography And Film            7000
4  20.0               0.0       ...                            NaN             NaN

[5 rows x 98 columns]

Geselecteerde kolommen en rijen laden

Spreadsheet met enquêtegegevens met metadata-koprijen

Factuurspreadsheet met meerdere kleine tabellen met gegevens

Geselecteerde kolommen en rijen laden

read_excel() deelt veel keyword-argumenten met read_csv()
- nrows: aantal te laden rijen beperken
- skiprows: aantal of nummers van over te slaan rijen
- usecols: kolommen kiezen op naam, positie of letter (bijv. "A:P")

Geselecteerde kolommen en rijen laden

# Read columns W-AB and AR of file, skipping metadata header
survey_data = pd.read_excel("fcc_survey_with_headers.xlsx",
                            skiprows=2,
                            usecols="W:AB, AR")


# View data
print(survey_data.head())

   CommuteTime            CountryCitizen  ...    EmploymentFieldOther    EmploymentStatus   Income
0         35.0  United States of America  ...                     NaN  Employed for wages  32000.0
1         90.0  United States of America  ...                     NaN  Employed for wages  15000.0
2         45.0  United States of America  ...                     NaN  Employed for wages  48000.0
3         45.0  United States of America  ...                     NaN  Employed for wages  43000.0
4         10.0  United States of America  ...                     NaN  Employed for wages   6000.0

[5 rows x 7 columns]

Laten we oefenen!

Gestroomlijnde data-inname met pandas