Data opschonen

Julia voor gevorderden

Anthony Markham

Quantitative Developer

Kolominformatie tonen

  • Kolomnamen zijn het eerste waar je naar kijkt in een dataset.
  • In het algemeen moeten kolomnamen leesbaar en beknopt zijn.
println(first(stock_data))
DataFrameRow
 Row | Date        Open     High     Low      Close    Adj Close  Volume
     | String15    Float64  Float64  Float64  Float64  Float64    Int64
<----|---------------------------------------------------------------------
   1 | 21/01/2022   164.42   166.33    162.3   162.41    161.473  122848900
Julia voor gevorderden

Een kolom hernoemen

  • We kunnen een kolom hernoemen als een andere label passender is.
 Row | Date        Open     High     Low      Close    Adj Close  Volume
     | String15    Float64  Float64  Float64  Float64  Float64    Int64
<----|---------------------------------------------------------------------
   1 | 21/01/2022   164.42   166.33    162.3   162.41    161.473  122848900
  • In dit geval bevat Adj Close een spatie; dat willen we vermijden.
rename!(stock_data, Dict(:Adj Close => :Adj_Close))
 Row | Date        Open     High     Low      Close    Adj_Close  Volume
     | String15    Float64  Float64  Float64  Float64  Float64    Int64
<----|---------------------------------------------------------------------
   1 | 21/01/2022   164.42   166.33    162.3   162.41    161.473  122848900
Julia voor gevorderden

Missende data beschrijven en vinden

  • Missende waarden zijn een veelvoorkomende bron van inconsistentie.
  • Oorzaken van missende data kunnen zijn:

    • meetfouten
    • overschrijffouten
    • bewust weggelaten
  • Met describe kun je snel missende data in een DataFrame vinden.

println(describe(stock_data))
Julia voor gevorderden

Missende data beschrijven

  • describe() geeft een algemeen overzicht van de hele DataFrame.
7×7 DataFrame
 Row | variable   mean       min        median     max        nmissing  eltype
     | Symbol     Union     Any          Union     Any        Int64     DataType
<--------------------------------------------------------------------------------
   1 | Date                  1/02/2022             9/12/2022         0  String15
   2 | Open       152.613    126.01     151.19     178.55            0  Float64
   3 | High       154.721    127.77     153.72     179.61            0  Float64
   4 | Low        150.529    124.17     149.34     176.7             0  Float64
   5 | Close      152.698    125.02     151.21     178.96            4  Union
   6 | Adj_Close  152.296    125.02     151.07     178.154           0  Float64
   7 | Volume     8.70851e7  35195900   8.22912e7  182602000         0  Int64
Julia voor gevorderden

Missende data verwijderen

  • We kunnen rijen met missende waarden droppen met dropmissing.
println(nrow(stock_data))
252
dropmissing!(stock_data, :"Close")
  • Met nrow() kun je bevestigen dat we 4 rijen hebben verwijderd.
println(nrow(stock_data))
248
Julia voor gevorderden

Missende data vervangen

  • Rijen met missende waarden simpelweg verwijderen is vaak geen goede aanpak.
  • Afhankelijk van de data kun je missende waarden vervangen door een alternatief.
replace!(stock_data[!, "Close"], missing => 130)
println(stock_data[[202, 227, 235, 240], :])
 Row | Date        Open     High     Low      Close     Adj Close  Volume
     | String15    Float64  Float64  Float64  Float64?  Float64    Int64
<----|-----------------------------------------------------------------------
   1 | 8/11/2022    140.41   141.43   137.49    130      139.5    89908500
   2 | 14/12/2022   145.35   146.66   141.16    130      143.21   82291200
   3 | 25/12/2022   130.92   132.42   129.64    130      131.86   63814900
   4 | 3/01/2023    130.28   130.9    124.17    130      125.07  112117500
  • Een willekeurige waarde kiezen als vervanging is zelden juist.
Julia voor gevorderden

Laten we oefenen!

Julia voor gevorderden

Preparing Video For Download...