Data pivoteren

Data manipulatie in Julia

Katerina Zahradova

Instructor

Draaitabellen

  • Manier om data samen te vatten
  • Kolommen en rijen herordenen voor beter leesbare data
Data manipulatie in Julia

Draaitabel met unstack()

unstack-structuur

Data manipulatie in Julia

unstack() voor pivoteren

# Pivoteren met unstack
# unstack(DataFrame, :col_as_rows, :col_as_cols, :values, combine = f_to_aggregate)

unstack(penguins, :species, :sex, :body_mass_g, combine = median)
3×3 DataFrame
Row  species   MALE     FEMALE
     String15  Float64  Float64
_____________________________________
1    Adelie    4000.0   3400.0
2    Chinstrap 3950.0   3550.0
3    Gentoo    5500.0   4700.0
Data manipulatie in Julia

Pivoteren met meerdere kolommen als rijen

# Pivot op meer kolommen als rijen
unstack(penguins, [:species, :island], :sex, :body_mass_g, combine = median)
5×4 DataFrame
Row  species    island     MALE       FEMALE
     String15   String15   Float64?   Float64?
_____________________________________________________
1    Adelie     Torgersen  4000.0    3400.0
2    Adelie     Biscoe     4000.0    3375.0
3    Adelie     Dream      3987.5    3400.0
4    Chinstrap  Dream      3950.0    3550.0
5    Gentoo     Biscoe     5500.0    4700.0
Data manipulatie in Julia

Pivoteren met meerdere kolommen elders

# Meerdere kolommen als kolommen gebruiken
unstack(penguins, :sex, [:species, :island], :body_mass_g, combine = sum)
MethodError: no method matching 
unstack(::DataFrame, ::Symbol, ::Vector{Symbol}, ::Symbol; combine = sum)
Data manipulatie in Julia

Ontbrekende waarden

# Ontbrekende waarden voor bepaalde combinaties
unstack(penguins_missing, :species, :sex, :body_mass_g, combine = median)
3×3 DataFrame
Row  species   MALE     FEMALE
     String15  Float64  Float64?
_____________________________________
1    Adelie    4000.0   3400.0
2    Chinstrap 3950.0   3550.0
3    Gentoo    5500.0   missing
Data manipulatie in Julia

Ontbrekende waarden vervangen

# Ontbrekende waarden voor bepaalde combinaties
unstack(penguins_missing, :species, :sex, :body_mass_g, combine = median, fill = -1)
3×3 DataFrame
Row  species   MALE     FEMALE
     String15  Float64  Float64
_____________________________________
1    Adelie    4000.0    3400.0
2    Chinstrap 3950.0    3550.0
3    Gentoo    5500.0    -1
Data manipulatie in Julia

Draaitabellen zijn DataFrames

# De draaitabel opslaan
pivot_penguins = unstack(penguins_missing, :species, :sex, :body_mass_g, combine = median)

# Alleen vrouwelijke pinguïns selecteren
select(pivot_penguins, :species, :FEMALE)
3×2 DataFrame
Row  species    FEMALE
     String15   Float64?
_______________________________
1    Adelie      3400.0
...
Data manipulatie in Julia

Laten we oefenen!

Data manipulatie in Julia

Preparing Video For Download...