Manipolazione dei dati in Julia
Katerina Zahradova
Instructor
wages invece di df wages invece di us_min_wages_data_between_1968_and_2020_with_inflation_adjusted_columnstate_wage_2020 e effective.2020.dollars è difficile da ricordarestate, Year e REGION nello stesso DataFrameNon creare troppe nuove variabili
wages_no_missing, wages_missing_state_only, wages_original_no_missing, wages_state_mean_no_missing, ecc.Sovrascrivi! Usa select!(), transform!(), ecc.
chain per ridurre nuove versioni degli stessi dati# Meglio
replace_missing = 0
replace!(df.col1, missing => replace_missing)
replace!(df.col2, missing => replace_missing)
# Che
replace!(df.col1, missing => 0)
replace!(df.col2, missing => 0)
# Funzione per tracciare più lineplot con etichette
function make_line_plot(xs, ys,labels; xlabel="", ylabel="", title="")
p = plot(title = title, xlabel = xlabel, ylabel = ylabel)
for (x, y, label) in zip(xs, ys, labels)
plot!(x, y, label=label)
end
p
end
# Standardizza i nomi
rename!(df, :ColumnOne => :col_1)
# Righe con azienda mancante
df[ismissing.(df.company),:]
# Pivot per anno e stato
unstack(wages, :year, :state, :eff_min_wage)
# Sostituisci salari mancanti con il minimo
# Come caso peggiore
min = minimum(skipmissing(df.wages))
replace!(df.wages, missing => min)
# Join con i paesi
# Per studiare l'influenza dei paesi sulla qualità
leftjoin(company, countries, on=:location)



Manipolazione dei dati in Julia