Menjelajahi data berkelompok

Manipulasi Data di Julia

Katerina Zahradova

Instructor

Menyaring kelompok

# Perusahaan di berbagai negara
choc_comp_france = filter(chocolates -> chocolates.company_location == "France", chocolates)

choc_comp_brazil = filter(chocolates -> chocolates.company_location == "Brazil", chocolates)

choc_comp_peru = filter(chocolates -> chocolates.company_location == "Peru", chocolates)

choc_comp_belgium = filter(chocolates -> chocolates.company_location == "Belgium", chocolates)

...
Manipulasi Data di Julia

groupby() menolong!

struktur groupby

Manipulasi Data di Julia

GroupedDataFrame

Struktur GroupedDataFrame

Manipulasi Data di Julia

groupby() dalam praktik

# Kelompokkan menurut company_location
groupby(chocolates, :company_location)
GroupedDataFrame dengan 60 grup berdasarkan kunci: company_location
Grup pertama (156 baris): company_location = "France"
Row  company   bean_origin  ...
     String    String       ...
_______________________________
1    A. Morin  Agua Grande  ...
...
Grup terakhir (4 baris): company_location = "Ireland"
Row  company           bean_origin  ...
     String            String       ...
_______________________________
1    Wilkie's Organic  Amazonas     ...
Manipulasi Data di Julia

groupby() pada beberapa kolom

groupby(chocolates, [:company_location, :cocoa])
GroupedDataFrame dengan 373 grup berdasarkan kunci: company_location, cocoa
Grup pertama (5 baris): company_location = "France", cocoa = 63.0
Row  company   bean_origin  ...
     String    String       ...
_______________________________
1    A. Morin  Agua Grande  ...
...
Grup terakhir (1 baris): company_location = "Ireland", cocoa = 89.0
Row  company           bean_origin  ...
     String            String       ...
_______________________________
1    Wilkie's Organic  Amazonas     ...
Manipulasi Data di Julia

Urutan itu penting

groupby dengan beberapa kolom

Manipulasi Data di Julia

Jumlah rekaman

# Kelompokkan menurut negara
chocolates_by_country = groupby(chocolates, :company_location)  
# Jumlah baris per grup
combine(chocolates_by_country, nrow => :count) 
60x2 DataFrame
Row  company_location  nrow
     String31          Int64
______________________________
1    France            156
2    U.S.A.            764
3    Fiji              4
...
Manipulasi Data di Julia

Urutkan menurut jumlah rekaman

# Kelompokkan menurut negara
chocolates_by_country = groupby(chocolates, :company_location) 
# Urutkan menurut jumlah baris
sort(combine(chocolates_by_country, nrow => :count), :count, rev = true)
60x2 DataFrame
Row  company_location  nrow
     String31          Int64
______________________________
1    U.S.A            764
2    France           156
3    Canada           125
...
Manipulasi Data di Julia

unique() pada vektor

# Elemen unik
unique(chocolates.company_location)
60-element Vector{String31}:
 "France"
 "U.S.A."
 "Fiji"
 "Ecuador"
 "Mexico"
 "Switzerland"
 "Netherlands"
...
Manipulasi Data di Julia

unique() pada DataFrame

# Buat DF baru hanya berisi baris unik
unique(chocolates)
1795×10 DataFrame
Row company  bean_origin  ...
    String   String       ...
_________________________________
1   A. Morin Agua Grande  ...
...
Manipulasi Data di Julia

unique() dengan kolom tertentu

# Baris perusahaan unik
unique(chocolates, :company)
416×10 DataFrame
Row company  bean_origin  ...
    String   String       ...
_________________________________
1   A. Morin Agua Grande  ...
...
# Perusahaan DAN kadar kakao unik 
unique(chocolates, [:company, :cocoa])
968×10 DataFrame
Row company  bean_origin  ...
    String   String       ...
_________________________________
1   A. Morin Agua Grande  ...
...
Manipulasi Data di Julia

Ayo berlatih!

Manipulasi Data di Julia

Preparing Video For Download...