Alur kerja efisien

Manipulasi Data di Julia

Katerina Zahradova

Instructor

Tips penamaan

  • Nama singkat dan bermakna
    • wages daripada df
    • wages daripada us_min_wages_data_between_1968_and_2020_with_inflation_adjusted_column
  • Ikuti konvensi/pola penamaan
    • mencampur state_wage_2020 dan effective.2020.dollars sulit diingat
    • sama halnya dengan kapitalisasi, hindari state, Year, dan REGION dalam satu DataFrame
Manipulasi Data di Julia

Terlalu banyak variabel

  • Jangan buat terlalu banyak variabel baru

    • membebani memori
    • chaos: apa beda wages_no_missing, wages_missing_state_only, wages_original_no_missing, wages_state_mean_no_missing, dll.
  • Timpa saja! Gunakan select!(), transform!(), dll.

  • Gunakan makro chain untuk mengurangi kebutuhan versi data baru
Manipulasi Data di Julia

Variabel, bukan hard code

  • Gunakan variabel, bukan hard-code nilai
# Rather
replace_missing = 0

replace!(df.col1, missing => replace_missing)
replace!(df.col2, missing => replace_missing)

# Than
replace!(df.col1, missing => 0)
replace!(df.col2, missing => 0)
Manipulasi Data di Julia

Jadikan fungsi

  • Tulis fungsi, jangan ulangi kode berkali-kali
    • fungsi mencegah typo
    • setelah dibuat, lebih cepat dipakai
# Function to plot multiple lineplots with labels
function make_line_plot(xs, ys,labels; xlabel="", ylabel="", title="")
    p = plot(title = title, xlabel = xlabel, ylabel = ylabel)
    for (x, y, label) in zip(xs, ys, labels)
        plot!(x, y, label=label)
    end
    p
end
Manipulasi Data di Julia

Beri komentar dan dokumentasi

  • Beri komentar tentang apa yang kita lakukan
# Standardize names
rename!(df, :ColumnOne => :col_1)

# Lines with missing company
df[ismissing.(df.company),:]

# Pivoting on year and state
unstack(wages, :year, :state, :eff_min_wage)
  • Dokumentasikan mengapa kita melakukannya
# Replace missing wages by minimum
# As the worst case
min = minimum(skipmissing(df.wages))
replace!(df.wages, missing => min)

# Joining with countries
# To study how countries influence quality
leftjoin(company, countries, on=:location)
Manipulasi Data di Julia

Kenali data

  • Luangkan waktu memahami data
    • Lebih mudah mengekstrak insight nanti
    • Buat plot, cetak hasil, ...

Kenali data Anda

1 Foto oleh Myriam Jessier di Unsplash
Manipulasi Data di Julia

Minta bantuan!

Logo Google, Stack Overflow, DataCamp

Manipulasi Data di Julia

Have fun!

  • Nikmati proses, jangan menyerah, dan bersenang-senang!
Manipulasi Data di Julia

Keterlambatan penerbangan di bandara AS

Struktur data penerbangan

Manipulasi Data di Julia

Ayo berlatih!

Manipulasi Data di Julia

Preparing Video For Download...