Statistiche riassuntive raggruppate

Manipolazione dei dati in Julia

Katerina Zahradova

Instructor

Cosa sappiamo ora

# Calcola la media del salario minimo
combine(wages, :effective_min_wage_2020_dollars => mean)
1x1 DataFrame
Row | effective_min_wage_2020_dollars_mean
    | Float64
____|_______________________
   1| 8.37093
Manipolazione dei dati in Julia

Cosa sappiamo ora

# Filtra e calcola la media
first(combine(filter(r -> r.region =="W", wages), :effective_min_wage_2020_dollars => mean))
first(combine(filter(r -> r.region =="S", wages), :effective_min_wage_2020_dollars => mean))
first(combine(filter(r -> r.region =="NE", wages), :effective_min_wage_2020_dollars => mean))
DataFrameRow (1 columns)
Row | effective_min_wage_2020_dollars_mean
    | Float64
____|_______________________
   1| 8.75413
...
Manipolazione dei dati in Julia

Usare combine() e groupby()

# Raggruppa per regione
wages_by_region = groupby(wages, :region)

# Calcola la media per gruppo combine(wages_by_region, :effective_min_wage_2020_dollars => mean)
4x2 DataFrame
Row region    effective_min_wage_2020_dollars_mean
    String    Float64
__________________________
1    S        8.15458
2    W        8.59119
3    NE       8.75413
4    MW       8.1514
Manipolazione dei dati in Julia

Combinare combine() e groupby()

# Mettili insieme
combine(groupby(wages, :region), :effective_min_wage_2020_dollars => mean)
4x2 DataFrame
Row region    effective_min_wage_2020_dollars_mean
    String    Float64
__________________________
1    S        8.15458
2    W        8.59119
3    NE       8.75413
4    MW       8.1514
Manipolazione dei dati in Julia

Usare combine() e groupby()

# Rinomina la colonna
combine(groupby(wages, :region), 
        :effective_min_wage_2020_dollars => mean => :average_min_wage_2020_dollars)
4x2 DataFrame
Row region    average_min_wage_2020_dollars
    String    Float64
__________________________
1    S        8.15458
2    W        8.59119
3    NE       8.75413
4    MW       8.1514
Manipolazione dei dati in Julia

Più funzioni su una colonna

# Usa più funzioni su una singola colonna
combine(groupby(wages, :region), 
                    :effective_min_wage_2020_dollars .=> [mean, median, maximum])
4x4 DataFrame
Row  region  effective_min_wage_2020_dollars_mean  ...
     String  Float64                               ...
____________________________________________________________________________________
1    S       8.15458                               ...
2    W       8.59119                               ...
3    NE      8.75413                               ...
4    MW      8.1514                                ...
Manipolazione dei dati in Julia

Più funzioni su una colonna

# Usa più funzioni su una singola colonna
combine(groupby(wages, :region), :effective_min_wage_2020_dollars .=> [mean, median] .=> [:average, :median])
4x2 DataFrame
Row region  average  median
    String  Float64  Float64
____________________________
1    S      8.15458  8.0
2    W      8.59119  8.34
...
# NON dimenticare il punto!
combine(groupby(wages, :region), :effective_min_wage_2020_dollars => [mean, median])
ArgumentError: Unrecognized column selector ...
Manipolazione dei dati in Julia

Più colonne con una funzione

combine(groupby(wages, :region), [:state_min_wage, :federal_min_wage] .=> mean)
4x2 DataFrame
Row region  state_min_wage_mean  federal_min_wage_mean
    String  Float64              Float64
______________________________________________________
1   S       2.73128              4.35566
2    W       4.26638              4.35566
...
# NON dimenticare il punto
combine(groupby(wages, :region), [:state_min_wage, :federal_min_wage] => mean)
MethodError: objects of type ...
Manipolazione dei dati in Julia

Più colonne con più funzioni

# Funzioni come matrice 1-riga
combine(groupby(wages, :region), [:state_min, :federal_min] .=> [mean median])
Row region  state_min_mean  federal_min_mean  state_min_median  federal_min_median
_________________________________________________________________________________
1   S       2.73128         4.35566           2.0                4.25
...
# Funzioni come vettore
combine(groupby(wages, :region), [:state_min, :federal_min] .=> [mean, median])
Row region  state_min_mean  federal_min_median 
______________________________________________
1   S       2.73128         4.25
...
Manipolazione dei dati in Julia

Funzioni possibili

Funzioni utilizzabili:

  • Statistiche comuni come sum(), mean(), minimum(), ...
  • Funzioni definite dall’utente (broadcast)
  • Funzioni anonime, con ByRow()
  • Funzioni speciali di DataFrames: nrow, proprow, ...
Manipolazione dei dati in Julia

Promemoria rapido

# Grouped DataFrame gdf
# 1 colonna + 1 funzione
combine(gdf, :c => f => :new_c)

# 1 colonna + 2+ funzioni
combine(gdf, :c .=> [f1, f2, ...] .=> [:new_c_f1, :new_c_f2, ...])

# 2+ colonne + 1 funzione
combine(gdf, [:c1, :c2, ...] .=> f .=> [:new_c1_f, :new_c2_f, ...])

# 2+ colonne + 2+ funzioni - tutte le combinazioni
combine(gdf, [:c1, :c2, ...] .=> [f1 f2 ...] .=> [:c1_f1, :c2_f1, ..., :c1_f2, ...])

# 2+ colonne + 2+ funzioni - accoppiate
combine(gdf, [:c1, :c2, ...] .=> [f1, f2, ...] .=> [:new_c1_f1, :new_c2_f2, ...])
Manipolazione dei dati in Julia

Passons à la pratique !

Manipolazione dei dati in Julia

Preparing Video For Download...