Üyelik kısıtları

Python ile Veri Temizleme

Adel Nehme

Content Developer @DataCamp

 

 

 

 

 

 

 

Bölüm 2 - Metin ve kategorik veri sorunları

Python ile Veri Temizleme

Kategoriler ve üyelik kısıtları

Önceden tanımlı, sonlu kategori kümesi

Veri türü Örnek değerler Sayısal gösterim
Medeni durum unmarried, married 0,1
Hane geliri kategorisi 0-20K, 20-40K, ... 0,1, ..
Kredi durumu default,payed,no_loan 0,1,2

 

Medeni durum yalnızca unmarried veya married olabilir

Python ile Veri Temizleme

Bu sorunlar neden oluşur?

categorical_issues

Python ile Veri Temizleme

Bu sorunları nasıl ele alırız?

    categories

Python ile Veri Temizleme

Bir örnek

# Çalışma verilerini okuyup yazdırın
study_data = pd.read_csv('study.csv')
study_data
      name   birthday blood_type
1     Beth 2019-10-20         B-
2 Ignatius 2020-07-08         A-
3     Paul 2019-08-12         O+
4    Helen 2019-03-17         O-
5 Jennifer 2019-12-17         Z+
6  Kennedy 2020-04-27         A+
7    Keith 2019-04-19        AB+
# Olası doğru kan grupları
categories
  blood_type
1         O-
2         O+
3         A-
4         A+
5         B+
6         B-
7        AB+
8        AB-
Python ile Veri Temizleme

Bir örnek

# Çalışma verilerini okuyup yazdırın
study_data = pd.read_csv('study.csv')
study_data
      name   birthday blood_type
1     Beth 2019-10-20         B-
2 Ignatius 2020-07-08         A-
3     Paul 2019-08-12         O+
4    Helen 2019-03-17         O-
5 Jennifer 2019-12-17         Z+  <--
6  Kennedy 2020-04-27         A+
7    Keith 2019-04-19        AB+
# Olası doğru kan grupları
categories
  blood_type
1         O-
2         O+
3         A-
4         A+
5         B+
6         B-
7        AB+
8        AB-
Python ile Veri Temizleme

Birleştirmeler hakkında not

Python ile Veri Temizleme

Kan gruplarında left anti join

Python ile Veri Temizleme

Kan gruplarında inner join

Python ile Veri Temizleme

Tutarsız kategorileri bulma

inconsistent_categories = set(study_data['blood_type']).difference(categories['blood_type'])
print(inconsistent_categories)
{'Z+'}
# Tutarsız kategorilere sahip satırları alın ve yazdırın
inconsistent_rows = study_data['blood_type'].isin(inconsistent_categories)

study_data[inconsistent_rows]
      name   birthday blood_type
5 Jennifer 2019-12-17         Z+
Python ile Veri Temizleme

Tutarsız kategorileri kaldırma

inconsistent_categories = set(study_data['blood_type']).difference(categories['blood_type'])
inconsistent_rows = study_data['blood_type'].isin(inconsistent_categories)
inconsistent_data = study_data[inconsistent_rows]

# Tutarsız kategorileri çıkarın, yalnızca tutarlı verileri alın consistent_data = study_data[~inconsistent_rows]
      name   birthday blood_type
1     Beth 2019-10-20         B-
2 Ignatius 2020-07-08         A-
3     Paul 2019-08-12         O+
4    Helen 2019-03-17         O-
...    ...      ...          ...
Python ile Veri Temizleme

Haydi pratik yapalım!

Python ile Veri Temizleme

Preparing Video For Download...