Verdelingen per categorie met seaborn

Financiële data importeren en beheren in Python

Stefan Jansen

Instructor

Verdelingen per categorie

Laatste segment: samenvattende statistieken
Aantal observaties, gemiddelde per categorie
Nu: visualiseer de verdeling van een variabele per niveau van een categorische variabele om te vergelijken
Voorbeeld: verdeling van Market Cap per sector of IPO-jaar
Meer detail dan samenvattingsstatistieken

Data opschonen: uitschieters verwijderen

nasdaq = pd.read_excel('listings.xlsx', sheet_name='nasdaq', 
                        na_values='n/a')
nasdaq['market_cap_m'] = nasdaq['Market Capitalization'].div(1e6)

nasdaq = nasdaq[nasdaq.market_cap_m > 0] # Alleen actieve bedrijven

outliers = nasdaq.market_cap_m.quantile(.9) # Drempel voor uitschieters

nasdaq = nasdaq[nasdaq.market_cap_m < outliers] # Uitschieters verwijderen

Boxplot: kwartielen en uitschieters

import seaborn as sns
sns.boxplot(x='Sector', y='market_cap_m', data=nasdaq)
plt.xticks(rotation=75);

kwartielen en uitschieters

Een variant: SwarmPlot

sns.swarmplot(x='Sector', y='market_cap_m', data=nasdaq)
plt.xticks(rotation=75)
plt.show()

swarmplot

Laten we oefenen!

Financiële data importeren en beheren in Python