Gestroomlijnde data-inname met pandas
Amany Mahfouz
Instructor
read_excel() laadt standaard het eerste werkbladsheet_name voor andere bladenread_excel() gelden voor alle geladen bladen
# Haal het tweede blad op via positie-index survey_data_sheet2 = pd.read_excel('fcc_survey.xlsx', sheet_name=1)# Haal het tweede blad op via naam survey_data_2017 = pd.read_excel('fcc_survey.xlsx', sheet_name='2017')print(survey_data_sheet2.equals(survey_data_2017))
True
sheet_name=None meegeven aan read_excel() leest alle bladen in een werkmapsurvey_responses = pd.read_excel("fcc_survey.xlsx", sheet_name=None)
print(type(survey_responses))
<class 'collections.OrderedDict'>
for key, value in survey_responses.items():
print(key, type(value))
2016 <class 'pandas.core.frame.DataFrame'>
2017 <class 'pandas.core.frame.DataFrame'>
# Maak een lege dataframe voor alle geladen bladen all_responses = pd.DataFrame()# Itereer door dataframes in de dictionary for sheet_name, frame in survey_responses.items(): # Voeg een kolom toe om het jaar te markeren frame["Year"] = sheet_name# Voeg de dataframe toe aan all_responses all_responses = pd.concat([all_responses, frame])# Bekijk de jaren in de data print(all_responses.Year.unique())
['2016' '2017']
Gestroomlijnde data-inname met pandas