Meningkatkan keterbacaan dengan Chain.jl

Manipulasi Data di Julia

Katerina Zahradova

Instructor

Masalah pada kode rumit

# Sulit dibaca 
combine(groupby(
    select(wages, :year, :eff_2020)
        :year),
        :eff_2020 => mean)
# Mudah lupa kurung
combine(groupby(wages, :year, ... )
syntax: incomplete: 
premature end of input ...
# Terlalu banyak variabel antara
w_tmp = select(wages, :state, :year, :eff_2020)
year_groups = groupby(w_tmp, :year)
combine(year_groups, :eff_2020 => mean)
# Mudah menimpa data penting
select!(wages, :year, :eff_2020)
groupby(wages, :state)
ArgumentError: 
column name "state" not found ...
Manipulasi Data di Julia

Apa itu piping?

  • Pendekatan pengodean
  • Menggabungkan banyak pemanggilan fungsi berurutan
  • Menjaga kode tetap mudah dibaca
  • Tak perlu menyimpan hasil antara
  • Tanpa penumpukan (nesting)

Piping

Manipulasi Data di Julia

Menggunakan Chain.jl

Menghitung rata-rata upah minimum per tahun

  • pilih kolom yang benar
  • kelompokkan DataFrame berdasarkan :year
  • hitung rata-rata per tahun
@chain wages begin

select(:state, :year, :eff_2020)
groupby(:year) combine(:eff_2020 => mean)
end
53×2 DataFrame
Row    year    eff_2020_mean
       Int64   Float64
_________________________
1      1968    9.28529
...
Manipulasi Data di Julia

Piping dengan _

@chain wages begin
    select(:state, :year, :eff_2020)
    groupby(:year)
    combine(:eff_2020 => mean)    

# Gunakan _ untuk mem-pipe di beberapa tempat plot(_.year, _.eff_2020_mean)
end

Grafik upah minimum efektif per tahun

Manipulasi Data di Julia

Lewati piping dengan @aside

@chain wages begin
    select(:state, :year,
        :eff_2020, :state_2020)
    groupby(:year)
    combine([:eff_2020,
        :state_2020] .=> mean)

# Gunakan @aside untuk melewati piping @aside plot(_.year,_.eff_2020_mean) plot!(_.year,_.state_2020_mean)
end

Grafik perbandingan upah negara bagian dan minimum

Manipulasi Data di Julia

Menyimpan hasil

# Simpan output macro chain sebagai variabel
wages_mean_by_year = @chain wages begin
    select(:state, :year, :eff_2020, :state_2020)
    groupby(:year)
    combine([:eff_2020, :state_2020] .=> mean)
end
# Cetak baris pertama
println(first(wages_mean_by_year))
DataFrameRow
Row | year     eff_2020_mean   state_2020_mean
    | Int64    Float64         Float64
____|_________________________________
   1| 1968     9.28529         6.21549
Manipulasi Data di Julia

Ayo berlatih!

Manipulasi Data di Julia

Preparing Video For Download...