Upsampling & Interpolation mit .resample()

Zeitreihen in Python bearbeiten

Stefan Jansen

Founder & Lead Data Scientist at Applied Artificial Intelligence

Frequenzkonvertierung & Transformationsmethoden

  • .resample(): ähnlich wie .groupby()

  • Gruppiert Daten innerhalb der Resampling-Periode und wendet Methoden auf jede Gruppe an

  • Neues Datum wird durch Offset bestimmt – Start, Ende usw.

  • Upsampling: aus vorhandenen Werten füllen oder interpolieren

  • Downsampling: vorhandene Daten aggregieren

Zeitreihen in Python bearbeiten

Einstieg: monatliche Arbeitslosenquote

unrate = pd.read_csv('unrate.csv', parse_dates['Date'], index_col='Date')

unrate.info()
DatetimeIndex: 208 entries, 2000-01-01 to 2017-04-01
Data columns (total 1 columns):
UNRATE    208 non-null float64 # keine Frequenzangabe
dtypes: float64(1)
unrate.head()
            UNRATE
DATE
2000-01-01     4.0
2000-02-01     4.1
2000-03-01     4.0
2000-04-01     3.8
2000-05-01     4.0
  • Meldedatum: 1. Tag des Monats
Zeitreihen in Python bearbeiten

Resampling-Periode & Frequenz-Offsets

  • Resample erzeugt neues Datum für den Frequenz-Offset
  • Mehrere Alternativen zum Kalendermonatsende

 

Frequency Alias Sample Date
Calendar Month End M 2017-04-30
Calendar Month Start MS 2017-04-01
Business Month End BM 2017-04-28
Business Month Start BMS 2017-04-03
Zeitreihen in Python bearbeiten

Resampling-Logik

Resampling-Logik

Zeitreihen in Python bearbeiten

Resampling-Logik

Resampling-Logik

Zeitreihen in Python bearbeiten

Frequenz mit .resample() zuweisen

unrate.asfreq('MS').info()
DatetimeIndex: 208 entries, 2000-01-01 to 2017-04-01
Freq: MS
Data columns (total 1 columns):
UNRATE    208 non-null float64
dtypes: float64(1)
unrate.resample('MS') # erzeugt Resampler-Objekt
DatetimeIndexResampler [freq=<MonthBegin>, axis=0, closed=left, 
                        label=left, convention=start, base=0]
Zeitreihen in Python bearbeiten

Frequenz mit .resample() zuweisen

unrate.asfreq('MS').equals(unrate.resample('MS').asfreq())
True
  • .resample(): gibt Daten erst mit weiterem Methodenaufruf zurück
Zeitreihen in Python bearbeiten

Quartalsweises reales BIP-Wachstum

gdp = pd.read_csv('gdp.csv')

gdp.info()
DatetimeIndex: 69 entries, 2000-01-01 to 2017-01-01
Data columns (total 1 columns):
gpd    69 non-null float64 # keine Frequenzinfo
dtypes: float64(1)
gdp.head(2)
            gpd
DATE
2000-01-01  1.2
2000-04-01  7.8
Zeitreihen in Python bearbeiten

Monatliches reales BIP-Wachstum interpolieren

gdp_1 = gdp.resample('MS').ffill().add_suffix('_ffill')
       gpd_ffill
DATE
2000-01-01  1.2
2000-02-01  1.2
2000-03-01  1.2
2000-04-01  7.8
Zeitreihen in Python bearbeiten

Monatliches reales BIP-Wachstum interpolieren

gdp_2 = gdp.resample('MS').interpolate().add_suffix('_inter')
            gpd_inter
DATE
2000-01-01  1.200000
2000-02-01  3.400000
2000-03-01  5.600000
2000-04-01  7.800000
  • .interpolate(): bestimmt Punkte auf der Geraden zwischen vorhandenen Werten
Zeitreihen in Python bearbeiten

Zwei DataFrames verketten

df1 = pd.DataFrame([1, 2, 3], columns=['df1'])

df2 = pd.DataFrame([4, 5, 6], columns=['df2'])
pd.concat([df1, df2])
   df1  df2
0  1.0  NaN
1  2.0  NaN
2  3.0  NaN
0  NaN  4.0
1  NaN  5.0
2  NaN  6.0
Zeitreihen in Python bearbeiten

Zwei DataFrames verketten

pd.concat([df1, df2], axis=1)
   df1  df2
0    1    4
1    2    5
2    3    6
  • axis=1: horizontal verketten
Zeitreihen in Python bearbeiten

Interpoliertes reales BIP-Wachstum plotten

pd.concat([gdp_1, gdp_2], axis=1).loc['2015':].plot()

ch2_3_v2 - Upsampling & Interpolation.032.png

Zeitreihen in Python bearbeiten

BIP-Wachstum & Arbeitslosigkeit kombinieren

pd.concat([unrate, gdp_inter], axis=1).plot();

ch2_3_v2 - Upsampling & Interpolation.034.png

Zeitreihen in Python bearbeiten

Lass uns üben!

Zeitreihen in Python bearbeiten

Preparing Video For Download...