Verdelingen per categorie met seaborn

Financiële data importeren en beheren in Python

Stefan Jansen

Instructor

Verdelingen per categorie

  • Laatste segment: samenvattende statistieken
  • Aantal observaties, gemiddelde per categorie
  • Nu: visualiseer de verdeling van een variabele per niveau van een categorische variabele om te vergelijken
  • Voorbeeld: verdeling van Market Cap per sector of IPO-jaar
  • Meer detail dan samenvattingsstatistieken
Financiële data importeren en beheren in Python

Data opschonen: uitschieters verwijderen

nasdaq = pd.read_excel('listings.xlsx', sheet_name='nasdaq', 
                        na_values='n/a')
nasdaq['market_cap_m'] = nasdaq['Market Capitalization'].div(1e6)

nasdaq = nasdaq[nasdaq.market_cap_m > 0] # Alleen actieve bedrijven
outliers = nasdaq.market_cap_m.quantile(.9) # Drempel voor uitschieters
nasdaq = nasdaq[nasdaq.market_cap_m < outliers] # Uitschieters verwijderen
Financiële data importeren en beheren in Python

Boxplot: kwartielen en uitschieters

import seaborn as sns
sns.boxplot(x='Sector', y='market_cap_m', data=nasdaq)
plt.xticks(rotation=75);

kwartielen en uitschieters

Financiële data importeren en beheren in Python

Een variant: SwarmPlot

sns.swarmplot(x='Sector', y='market_cap_m', data=nasdaq)
plt.xticks(rotation=75)
plt.show()

swarmplot

Financiële data importeren en beheren in Python

Laten we oefenen!

Financiële data importeren en beheren in Python

Preparing Video For Download...