Selezionare colonne

Manipolazione dei dati in Julia

Katerina Zahradova

Instructor

Salari minimi USA

# Stampa wages
wages
2703×10 DataFrame 2678 rows omitted 5 columns omitted
Row  year   state     region   state_min_wage    state_min_wage_2020_dollars ...
     Int64  String31  String3  Float64           Float64           ...
______________________________________________________________________________
1    1968   Alabama   S        0.0               0.0               ...
2    1968   Alaska    W        2.1               15.61             ...
...
Manipolazione dei dati in Julia

Come slice-iamo

# Usare la posizione della colonna
wages[:, 1]
# Usare il nome della colonna
wages[:, "year"]
wages[:, :year]
# Usare il nome della colonna
wages.year
# Selezionare più colonne
wages[:, ["year", "state"]]
wages[:, [:year, :state]]
wages[:, [1,2]]
Manipolazione dei dati in Julia

Selezionare colonne

# Selezionare stato, anno e salario minimo statale

select(wages, 2, 1, 4)
2703×3 DataFrame 2678 rows omitted
Row  state     year        state_min_wage    
     String31  Int64       Float64                      
____________________________________________
1    Alabama   1968        0.0                              
2    Alaska    1968        2.1                            
...
Manipolazione dei dati in Julia

Selezionare colonne

# Selezionare stato, anno e salario minimo statale
select(wages, "state", :year, 4)
2703×3 DataFrame 2678 rows
Row  state     year        state_min_wage    
     String31  Int64       Float64                      
____________________________________________
1    Alabama   1968        0.0                              
2    Alaska    1968        2.1                            
...
Manipolazione dei dati in Julia

Selezione con pattern

Selezione colonne

  • Che iniziano/finiscono con una lettera/parola
  • Che contengono una sottostringa
  • ...

... diventa scomodo su dataset grandi

Manipolazione dei dati in Julia

Selezione con pattern

# Tutte le colonne che iniziano con state
select(wages, Cols(startswith("state")))
2703×3 DataFrame 2702 rows omitted
Row state    state_min_wage state_min_wage_2020_dollars
    String31 Float64        Float64
__________________________________________
1   Alabama  0.0            0.0
...
Manipolazione dei dati in Julia

Selezione con pattern

# Tutte le colonne che finiscono con 2020_dollars
select(wages, Cols(endswith("2020_dollars")))
2703x3 DataFrame 2702 rows omitted
Row state_min_wage_2020_dollars  federal_min_wage_2020_dollars  effective_min_wage_2020_dollars
    Float64                      Float64                        Float64
________________________________________________________________________________________________
1   0.0                          8.55                           8.55
...
Manipolazione dei dati in Julia

Selezione con pattern

# Tutte le colonne che contengono min
select(wages, Cols(contains.("min")))
2703×6 DataFrame 2702 rows omitted 3 columns omitted
Row  state_min_wage  state_min_wage_2020_dollars  federal_min_wage  ...    
     Float64         Float64                      Float64           ...
_______________________________________________________________________
1    0.0             0.0                          1.15              ...
... 
Manipolazione dei dati in Julia

Regex

regex = espressioni regolari

Manipolazione dei dati in Julia

Uso delle regex

# Selezione con regex
select(wages, r"min")
2703×6 DataFrame 2702 rows omitted 3 columns omitted
Row  state_min_wage  state_min_wage_2020_dollars  federal_min_wage  ...    
     Float64         Float64                      Float64           ...
_______________________________________________________________________
1    0.0             0.0                          1.15              ...
...
Manipolazione dei dati in Julia

select!() vs. select()

# Modifica il DataFrame originale
select!(wages, :year, :state)

# Il DataFrame originale è cambiato
println(first(wages))
DataFrameRow (2 columns)
Row  year    state     
     Int64   String31  
______________________
1    1968    Alabama
# Restituisce un nuovo DataFrame
select(wages, :year, :state)

# Il DataFrame originale resta intatto
println(first(wages))
DataFrameRow (10 columns, 7 omitted)
Row  year    state     region    ...
     Int64   String31  String3   ...
____________________________________
1    1968    Alabama   S         ...
Manipolazione dei dati in Julia

Ayo berlatih!

Manipolazione dei dati in Julia

Preparing Video For Download...