Introductie tot spreadsheets

Gestroomlijnde data-inname met pandas

Amany Mahfouz

Instructor

Spreadsheets

  • Ook bekend als Excel-bestanden
  • Gegevens in tabelvorm, met cellen in rijen en kolommen
  • In tegenstelling tot flat files kunnen ze opmaak en formules bevatten
  • Meerdere spreadsheets kunnen in één werkmap staan
Gestroomlijnde data-inname met pandas

Spreadsheets laden

  • Spreadsheets hebben in pandas een eigen laadfunctie: read_excel()

Schermafbeelding van FreeCodeCamps New Developer Survey-gegevens in een spreadsheetprogramma

Gestroomlijnde data-inname met pandas

Spreadsheets laden

import pandas as pd

# Read the Excel file
survey_data = pd.read_excel("fcc_survey.xlsx")

# View the first 5 lines of data print(survey_data.head())
    Age  AttendedBootcamp       ...                    SchoolMajor  StudentDebtOwe
0  28.0               0.0       ...                            NaN           20000
1  22.0               0.0       ...                            NaN             NaN
2  19.0               0.0       ...                            NaN             NaN
3  26.0               0.0       ...        Cinematography And Film            7000
4  20.0               0.0       ...                            NaN             NaN

[5 rows x 98 columns]
Gestroomlijnde data-inname met pandas

Geselecteerde kolommen en rijen laden

Spreadsheet met enquêtegegevens met metadata-koprijen

Factuurspreadsheet met meerdere kleine tabellen met gegevens

Gestroomlijnde data-inname met pandas

Geselecteerde kolommen en rijen laden

  • read_excel() deelt veel keyword-argumenten met read_csv()
    • nrows: aantal te laden rijen beperken
    • skiprows: aantal of nummers van over te slaan rijen
    • usecols: kolommen kiezen op naam, positie of letter (bijv. "A:P")
Gestroomlijnde data-inname met pandas

Geselecteerde kolommen en rijen laden

Gestroomlijnde data-inname met pandas

Geselecteerde kolommen en rijen laden

# Read columns W-AB and AR of file, skipping metadata header
survey_data = pd.read_excel("fcc_survey_with_headers.xlsx",
                            skiprows=2,
                            usecols="W:AB, AR")

# View data print(survey_data.head())
   CommuteTime            CountryCitizen  ...    EmploymentFieldOther    EmploymentStatus   Income
0         35.0  United States of America  ...                     NaN  Employed for wages  32000.0
1         90.0  United States of America  ...                     NaN  Employed for wages  15000.0
2         45.0  United States of America  ...                     NaN  Employed for wages  48000.0
3         45.0  United States of America  ...                     NaN  Employed for wages  43000.0
4         10.0  United States of America  ...                     NaN  Employed for wages   6000.0

[5 rows x 7 columns]
Gestroomlijnde data-inname met pandas

Laten we oefenen!

Gestroomlijnde data-inname met pandas

Preparing Video For Download...