Düzenli veri nedir?

tidyr ile Veriyi Şekillendirme

Jeroen Boeye

Head of Machine Learning, Faktion

 

 

Mutlu aileler birbirine benzer; her mutsuz ailenin mutsuzluğu ise kendine göredir.


Lev Tolstoy

 

Düzenli veri kümeleri birbirine benzer; dağınık veri kümeleri ise kendine özgü biçimde dağınıktır.


Hadley Wickham

tidyr ile Veriyi Şekillendirme

Dikdörtgen veri

 

Yapı

  • Sütunlar
  • Satırlar
  • Hücreler

 

Düzenli örnek

tidyr ile Veriyi Şekillendirme

Düzenli veri, değişkenler

 

Yapı

  • Sütunlar değişkenleri tutar
  • Satırlar
  • Hücreler

 

Düzenli örnek değişkenler

tidyr ile Veriyi Şekillendirme

Düzenli veri, gözlemler

 

Yapı

  • Sütunlar değişkenleri tutar
  • Satırlar gözlemleri tutar
  • Hücreler

 

Düzenli örnek gözlemler

tidyr ile Veriyi Şekillendirme

Düzenli veri, değerler

 

Yapı

  • Sütunlar değişkenleri tutar
  • Satırlar gözlemleri tutar
  • Hücreler değerleri tutar

 

Düzenli örnek değerler

tidyr ile Veriyi Şekillendirme

dplyr özeti

character_df
# A tibble: 4 x 3
  name           homeworld species
  <chr>          <chr>     <chr>  
1 Luke Skywalker Tatooine  Human  
2 R2-D2          Naboo     Droid  
3 Darth Vader    Tatooine  Human  
4 Obi-Wan Kenobi Stewjon   Human
tidyr ile Veriyi Şekillendirme

dplyr özeti: select()

character_df %>% 
  select(name, homeworld)
# A tibble: 4 x 2
  name           homeworld
  <chr>          <chr>    
1 Luke Skywalker Tatooine 
2 R2-D2          Naboo    
3 Darth Vader    Tatooine 
4 Obi-Wan Kenobi Stewjon
tidyr ile Veriyi Şekillendirme

dplyr özeti: filter()

character_df %>% 
  filter(homeworld == "Tatooine")
# A tibble: 2 x 3
  name           homeworld species
  <chr>          <chr>     <chr>  
1 Luke Skywalker Tatooine  Human  
2 Darth Vader    Tatooine  Human
tidyr ile Veriyi Şekillendirme

dplyr özeti: mutate()

character_df %>% 
  mutate(is_human = species == "Human")
# A tibble: 4 x 4
  name           homeworld species is_human
  <chr>          <chr>     <chr>   <lgl>   
1 Luke Skywalker Tatooine  Human   TRUE    
2 R2-D2          Naboo     Droid   FALSE   
3 Darth Vader    Tatooine  Human   TRUE    
4 Obi-Wan Kenobi Stewjon   Human   TRUE
tidyr ile Veriyi Şekillendirme

dplyr özeti: group_by() ve summarize()

character_df %>% 
  group_by(homeworld) %>% 
  summarize(n = n())
# A tibble: 3 x 2
  homeworld     n
  <chr>     <int>
1 Naboo         1
2 Stewjon       1
3 Tatooine      2
tidyr ile Veriyi Şekillendirme

magrittr logosu

1 magrittr.tidyverse.org
tidyr ile Veriyi Şekillendirme

 

dplyr logosu

 

tidyr logosu

1 www.tidyverse.org
tidyr ile Veriyi Şekillendirme

Tek sütunda birden çok değişken

population_df
# A tibble: 4 x 2
  country                 population
  <chr>                        <dbl>
1 Brazil, South America        210. 
2 Nepal, Asia                   28.1
3 Senegal, Africa               15.8
4 Australia, Oceania            25.0
tidyr ile Veriyi Şekillendirme

Değişkenleri iki sütuna ayırma

population_df %>% 
  separate(country, into = c("country", "continent"), sep = ", ")
# A tibble: 4 x 3
  country   continent      population
  <chr>     <chr>               <dbl>
1 Brazil    South America       210. 
2 Nepal     Asia                 28.1
3 Senegal   Africa               15.8
4 Australia Oceania              25.0
tidyr ile Veriyi Şekillendirme

Hadi pratik yapalım!

tidyr ile Veriyi Şekillendirme

Preparing Video For Download...