Aralık kısıtları

R ile Veri Temizleme

Maggie Matsui

Content Developer @ DataCamp

Aralık dışı değer nedir?

  • SAT puanı: 400-1600
  • Paket ağırlığı: en az 0 lb/kg
  • Yetişkin nabız: dakikada 60-100 atım
R ile Veri Temizleme

Aralık dışı değerleri bulma

movies
  title                 avg_rating
  <chr>                      <dbl>
1 A Beautiful Mind             4.1
2 La Vita e Bella              4.3
3 Amelie                       4.2
4 Meet the Parents             3.5
5 Unbreakable                  5.8
6 Gone in Sixty Seconds        3.3
...
R ile Veri Temizleme

Aralık dışı değerleri bulma

breaks <- c(min(movies$avg_rating), 0, 5, max(movies$avg_rating))

ggplot(movies, aes(avg_rating)) + geom_histogram(breaks = breaks)

Kodla üretilmiş üç kutulu histogram: bir değer çok düşük, altı değer aralıkta, iki değer çok yüksek.

R ile Veri Temizleme

Aralık dışı değerleri bulma

library(assertive)
assert_all_are_in_closed_range(movies$avg_rating, lower = 0, upper = 5)
Error: is_in_closed_range : movies$avg_rating are not all in the range [0,5].
There were 3 failures:
  Position Value    Cause
1        5   5.8 too high
2        8   6.2 too high
3        9  -4.4  too low
R ile Veri Temizleme

Aralık dışı değerleri ele alma

  • Satırları kaldırın
  • Eksik (NA) olarak değerlendirin
  • Aralık sınırıyla değiştirin
  • Alan bilgisini ve/veya veri kümesi bilgisini kullanarak başka bir değerle değiştirin
R ile Veri Temizleme

Satırları kaldırma

movies %>%
  filter(avg_rating >= 0, avg_rating <= 5) %>%


ggplot(aes(avg_rating)) + geom_histogram(breaks = c(min(movies$avg_rating), 0, 5, max(movies$avg_rating)))

Kodla üretilmiş histogram: aralıkta 6 değer, sınırların altında/üstünde 0 değer.

R ile Veri Temizleme

Eksik olarak değerlendir

movies
  title                 avg_rating
  <chr>                      <dbl>
1 A Beautiful Mind             4.1
2 La Vita e Bella              4.3
3 Amelie                       4.2
4 Meet the Parents             3.5
5 Unbreakable                  5.8
6 Gone in Sixty Seconds        3.3
...

replace(col, condition, replacement)

movies %>%
  mutate(rating_miss = 
    replace(avg_rating, avg_rating > 5, NA))
  title                rating_miss
  <chr>                      <dbl>
1 A Beautiful Mind             4.1
2 La Vita e Bella              4.3
3 Amelie                       4.2
4 Meet the Parents             3.5
5 Unbreakable                   NA
6 Gone in Sixty Seconds        3.3
...
R ile Veri Temizleme

Aralık dışı değerleri değiştirme

movies %>%
  mutate(rating_const = 
           replace(avg_rating, avg_rating > 5, 5))
  title               rating_const
  <chr>                      <dbl>
1 A Beautiful Mind             4.1
2 La Vita e Bella              4.3
3 Amelie                       4.2
4 Meet the Parents             3.5
5 Unbreakable                  5.0
6 Gone in Sixty Seconds        3.3
...
R ile Veri Temizleme

Tarih aralığı kısıtları

assert_all_are_in_past(movies$date_recorded)
Error: is_in_past : movies$date_recorded are not all in the past.
There was 1 failure:
  Position               Value     Cause
1        3 2064-09-22 20:00:00 in future
library(lubridate)
movies %>%
  filter(date_recorded > today())
    title  avg_rating  date_recorded
1  Amelie         4.2  2064-09-23
R ile Veri Temizleme

Aralık dışı tarihleri kaldırma

library(lubridate)
movies <- movies %>%
  filter(date_recorded <= today())
library(assertive)
assert_all_are_in_past(movies$date_recorded)


Unutmayın, çıktı yoksa = geçti!

R ile Veri Temizleme

Ayo berlatih!

R ile Veri Temizleme

Preparing Video For Download...