Üyelik kontrolü

R ile Veri Temizleme

Maggie Matsui

Content Developer @ DataCamp

Kategorik veriler

  • Kategorik değişkenlerin olası değerleri sabit ve bilinir
Veri Örnek değerler
Medeni durum unmarried, married
Hane geliri kategorisi 0-20K, 20-40K, ...
Tişört bedeni S, M, L, XL
R ile Veri Temizleme

Faktörler

  • Bir factor içinde, her kategori sayısal olarak saklanır ve buna karşılık gelen bir etiket vardır
Veri Etiketler Sayısal gösterim
Medeni durum unmarried, married 1, 2
Hane geliri kategorisi 0-20K, 20-40K, ... 1, 2, ...
Tişört bedeni S, M, L, XL 1, 2, 3, 4
R ile Veri Temizleme

Faktör düzeyleri

tshirt_size
L  XL XL L  M  M  M  L  XL L  S  M  M  S  S  M  XL S  L  S ... 
Levels: S M L XL
levels(tshirt_size)
"S"  "M"  "L"  "XL"
R ile Veri Temizleme

Uymayan değerler

  • factorlar, önceden tanımlı değerlerin dışına çıkamaz
Veri Düzeyler İzin verilmez
Medeni durum unmarried, married divorced
Hane geliri kategorisi 0-20K, 20-40K, ... 10-30K
Tişört bedeni S, M, L, XL S/M
R ile Veri Temizleme

Bu değerlere nasıl ulaşırız?

 

Solda, Serbest metin girişini temsil eden bir metin kutusu ve açılır menü ile Veri Girişi Hataları. Sağda, bir veritabanı ile Ayrıştırma hataları.

R ile Veri Temizleme

Filtreleyen birleştirmeler: hızlı tekrar

  • Sütun eklemeden ilk tablodaki gözlemleri tutar veya kaldırır

Başlık: Yarı-birleştirme. Alt başlık: X'teki hangi gözlemler Y'de de var? Solda, X adlı tek sütunlu bir tablo: a, b, c. Sağda, Y adlı tek sütunlu bir tablo: a, c, d. Tabolardaki a ve c’ler çizgilerle bağlanmış. X’te a ve c hücreleri vurgulu.

R ile Veri Temizleme

Filtreleyen birleştirmeler: hızlı tekrar

  • Sütun eklemeden ilk tablodaki gözlemleri tutar veya kaldırır

Başlık: Anti-birleştirme. Alt başlık: X’te olup Y’de olmayan gözlemler hangileri? Solda, X adlı tek sütunlu bir tablo: a, b, c. Sağda, Y adlı tek sütunlu bir tablo: a, c, d. Tabolardaki a ve c’ler çizgilerle bağlanmış. X’te b hücresi vurgulu.

R ile Veri Temizleme

Kan grubu örneği

study_data
      name   birthday blood_type
1     Beth 2019-10-20         B-
2 Ignatius 2020-07-08         A-
3     Paul 2019-08-12         O+
4    Helen 2019-03-17         O-
5 Jennifer 2019-12-17         Z+
6  Kennedy 2020-04-27         A+
7    Keith 2019-04-19        AB+
blood_types
  blood_type
1         O-
2         O+
3         A-
4         A+
5         B+
6         B-
7        AB+
8        AB-
R ile Veri Temizleme

Kan grubu örneği

study_data
      name   birthday blood_type
1     Beth 2019-10-20         B-
2 Ignatius 2020-07-08         A-
3     Paul 2019-08-12         O+
4    Helen 2019-03-17         O-
5 Jennifer 2019-12-17         Z+  <--
6  Kennedy 2020-04-27         A+
7    Keith 2019-04-19        AB+
blood_types
  blood_type
1         O-
2         O+
3         A-
4         A+
5         B+
6         B-
7        AB+
8        AB-
R ile Veri Temizleme

Üye olmayanları bulma

Venn diyagramı. Sol daire study_data’yı, sağ daire blood_types’ı gösterir. Solda Z+. Ortada A-, O-, AB+, A+, O+, B-. Sağda B+ ve AB-. Soldaki Z+ kırmızı.

R ile Veri Temizleme

Anti-birleştirme

study_data %>%
  anti_join(blood_types, by = "blood_type")
      name   birthday blood_type
1 Jennifer 2019-12-17         Z+
R ile Veri Temizleme

Üye olmayanları kaldırma

Venn diyagramı. Sol daire study_data’yı, sağ daire blood_types’ı gösterir. Solda Z+. Ortada A-, O-, AB+, A+, O+, B-. Sağda B+ ve AB-. Ortadaki kan grupları mavi.

R ile Veri Temizleme

Yarı-birleştirme

study_data %>%
  semi_join(blood_types, by = "blood_type")
      name   birthday blood_type
1     Beth 2019-10-20         B-
2 Ignatius 2020-07-08         A-
3     Paul 2019-08-12         O+
4    Helen 2019-03-17         O-
5  Kennedy 2020-04-27         A+
6    Keith 2019-04-19        AB+
R ile Veri Temizleme

Haydi pratik yapalım!

R ile Veri Temizleme

Preparing Video For Download...