Data manipulatie in Julia
Katerina Zahradova
Instructor
wages in plaats van df wages in plaats van us_min_wages_data_between_1968_and_2020_with_inflation_adjusted_columnstate_wage_2020 en effective.2020.dollars is lastig te onthoudenstate, Year en REGION in dezelfde DataFrameMaak niet te veel nieuwe variabelen
wages_no_missing, wages_missing_state_only, wages_original_no_missing, wages_state_mean_no_missing, enz.Overschrijf! Gebruik select!(), transform!(), enz.
chain-macros om minder nieuwe versies van dezelfde data te maken# Liever
replace_missing = 0
replace!(df.col1, missing => replace_missing)
replace!(df.col2, missing => replace_missing)
# Dan
replace!(df.col1, missing => 0)
replace!(df.col2, missing => 0)
# Functie om meerdere lijndiagrammen met labels te plotten
function make_line_plot(xs, ys,labels; xlabel="", ylabel="", title="")
p = plot(title = title, xlabel = xlabel, ylabel = ylabel)
for (x, y, label) in zip(xs, ys, labels)
plot!(x, y, label=label)
end
p
end
# Namen standaardiseren
rename!(df, :ColumnOne => :col_1)
# Rijen met ontbrekend bedrijf
df[ismissing.(df.company),:]
# Pivoteren op jaar en staat
unstack(wages, :year, :state, :eff_min_wage)
# Ontbrekende lonen vervangen door minimum
# Als worstcasescenario
min = minimum(skipmissing(df.wages))
replace!(df.wages, missing => min)
# Joinen met landen
# Om te onderzoeken hoe landen kwaliteit beïnvloeden
leftjoin(company, countries, on=:location)



Data manipulatie in Julia