Data uit CSV lezen, inspecteren en opschonen

Financiële data importeren en beheren in Python

Stefan Jansen

Instructor

Data importeren en opschonen

  • Zorg dat pd.DataFrame() gelijk is aan het CSV‑bronbestand
  • Beursnoteringen: amex-listings.csv

AmEx-gegevens

Financiële data importeren en beheren in Python

Hoe pandas data opslaat

  • Elke kolom heeft een eigen dataformaat (dtype)
  • dtype beïnvloedt berekeningen en visualisaties
pandas dtype Kolomkenmerk
object Tekst of mix van tekst en numeriek
int64 Numeriek: gehele getallen – 64 bit (≤ 2^{64})
float64 Numeriek: decimalen of ontbrekende waarden mogelijk
datetime64 Datum- en tijdinformatie
Financiële data importeren en beheren in Python

Importeren & inspecteren

import pandas as pd

amex = pd.read_csv('amex-listings.csv')
amex.info() # Tabelstructuur & datatypes inspecteren
RangeIndex: 360 entries, 0 to 359
Data columns (total 8 columns):
 #   Column                 Non-Null Count  Dtype  
 --  ------                 --------------  -----  
 0   Stock Symbol           360 non-null    object 
 1   Company Name           360 non-null    object 
 2   Last Sale              346 non-null    float64
 3   Market Capitalization  360 non-null    float64
 4   IPO Year               105 non-null    float64
 5   Sector                 238 non-null    object 
 6   Industry               238 non-null    object 
 7   Last Update            360 non-null    object 
dtypes: float64(3), object(5)
Financiële data importeren en beheren in Python

Omgaan met missende waarden

# Vervang 'n/a' door np.nan
amex = pd.read_csv('amex-listings.csv', na_values='n/a')

amex.info()
RangeIndex: 360 entries, 0 to 359
Data columns (total 8 columns):
 #   Column                 Non-Null Count  Dtype  
 --  ------                 --------------  -----  
 0   Stock Symbol           360 non-null    object 
 1   Company Name           360 non-null    object 
 2   Last Sale              346 non-null    float64
 3   Market Capitalization  360 non-null    float64
 4   IPO Year               105 non-null    float64
 5   Sector                 238 non-null    object 
 6   Industry               238 non-null    object 
 7   Last Update            360 non-null    object 
dtypes: float64(3), object(5)
Financiële data importeren en beheren in Python

Data goed als datum parsen

amex = pd.read_csv('amex-listings.csv',
                   na_values='n/a',
                   parse_dates=['Last Update'])

amex.info()
RangeIndex: 360 entries, 0 to 359
Data columns (total 8 columns):
 #   Column                 Non-Null Count  Dtype         
 --  ------                 --------------  -----  
 0   Stock Symbol           360 non-null    object        
 1   Company Name           360 non-null    object        
 2   Last Sale              346 non-null    float64       
 3   Market Capitalization  360 non-null    float64       
 4   IPO Year               105 non-null    float64       
 5   Sector                 238 non-null    object        
 6   Industry               238 non-null    object        
 7   Last Update            360 non-null    datetime64[ns]
dtypes: datetime64[ns](1), float64(3), object(4)
Financiële data importeren en beheren in Python

Resultaat tonen

amex.head(2) # Toon eerste n rijen (standaard: 5)
  Stock Symbol   Company Name  
0         XXII   22nd Century Group, Inc   
1          FAX   Aberdeen Asia-Pacific Income Fund Inc   

   Last Sale  Market Capitalization  IPO Year  
0     1.3300           1.206285e+08       NaN  
1     5.0000           1.266333e+09    1986.0  

   Sector        Industry              Last Update  
0  Non-Durables  Farming/Seeds/Milling  2017-04-26  
1  NaN           NaN                    2017-04-25
Financiële data importeren en beheren in Python

Laten we oefenen!

Financiële data importeren en beheren in Python

Preparing Video For Download...