Flusso di lavoro efficiente

Manipolazione dei dati in Julia

Katerina Zahradova

Instructor

Consigli per i nomi

  • Nomi brevi e significativi
    • wages invece di df
    • wages invece di us_min_wages_data_between_1968_and_2020_with_inflation_adjusted_column
  • Segui convenzioni/schemi di naming
    • mescolare state_wage_2020 e effective.2020.dollars è difficile da ricordare
    • stesso per le maiuscole: evita state, Year e REGION nello stesso DataFrame
Manipolazione dei dati in Julia

Troppe variabili

  • Non creare troppe nuove variabili

    • occupano memoria
    • caos: che differenza c'è tra wages_no_missing, wages_missing_state_only, wages_original_no_missing, wages_state_mean_no_missing, ecc.
  • Sovrascrivi! Usa select!(), transform!(), ecc.

  • Usa macro chain per ridurre nuove versioni degli stessi dati
Manipolazione dei dati in Julia

Variabili al posto di hard coding

  • Variabili invece di hard coding
# Meglio
replace_missing = 0

replace!(df.col1, missing => replace_missing)
replace!(df.col2, missing => replace_missing)

# Che
replace!(df.col1, missing => 0)
replace!(df.col2, missing => 0)
Manipolazione dei dati in Julia

Fanne una funzione

  • Scrivi una funzione invece di ripetere codice all'infinito!
    • le funzioni evitano refusi
    • una volta pronte, sono più veloci da usare
# Funzione per tracciare più lineplot con etichette
function make_line_plot(xs, ys,labels; xlabel="", ylabel="", title="")
    p = plot(title = title, xlabel = xlabel, ylabel = ylabel)
    for (x, y, label) in zip(xs, ys, labels)
        plot!(x, y, label=label)
    end
    p
end
Manipolazione dei dati in Julia

Commenta e documenta

  • Commenta cosa stai facendo
# Standardizza i nomi
rename!(df, :ColumnOne => :col_1)

# Righe con azienda mancante
df[ismissing.(df.company),:]

# Pivot per anno e stato
unstack(wages, :year, :state, :eff_min_wage)
  • Documenta perché lo fai
# Sostituisci salari mancanti con il minimo
# Come caso peggiore
min = minimum(skipmissing(df.wages))
replace!(df.wages, missing => min)

# Join con i paesi
# Per studiare l'influenza dei paesi sulla qualità
leftjoin(company, countries, on=:location)
Manipolazione dei dati in Julia

Conosci i dati

  • Prenditi il tempo per capire i dati
    • Estrarre insight sarà più facile dopo
    • Fai grafici, stampa i risultati, ...

Conosci i tuoi dati

1 Foto di Myriam Jessier su Unsplash
Manipolazione dei dati in Julia

Chiedi aiuto!

Loghi di Google, Stack Overflow, DataCamp

Manipolazione dei dati in Julia

Divertiti!

  • Divertiti, non mollare, goditela!
Manipolazione dei dati in Julia

Ritardi voli negli aeroporti USA

Struttura dei dati di volo

Manipolazione dei dati in Julia

Let's practice!

Manipolazione dei dati in Julia

Preparing Video For Download...