Üyelik kısıtları

Python ile Veri Temizleme

Adel Nehme

Content Developer @DataCamp

Bölüm 2 - Metin ve kategorik veri sorunları

Kategoriler ve üyelik kısıtları

Önceden tanımlı, sonlu kategori kümesi

Veri türü	Örnek değerler	Sayısal gösterim
Medeni durum	`unmarried`, `married`	`0`,`1`
Hane geliri kategorisi	`0-20K`, `20-40K`, ...	`0`,`1`, ..
Kredi durumu	`default`,`payed`,`no_loan`	`0`,`1`,`2`

Medeni durum yalnızca unmarried veya married olabilir

Bu sorunlar neden oluşur?

categorical_issues

Bu sorunları nasıl ele alırız?

Bir örnek

# Çalışma verilerini okuyup yazdırın
study_data = pd.read_csv('study.csv')
study_data

      name   birthday blood_type
1     Beth 2019-10-20         B-
2 Ignatius 2020-07-08         A-
3     Paul 2019-08-12         O+
4    Helen 2019-03-17         O-
5 Jennifer 2019-12-17         Z+
6  Kennedy 2020-04-27         A+
7    Keith 2019-04-19        AB+

# Olası doğru kan grupları
categories

  blood_type
1         O-
2         O+
3         A-
4         A+
5         B+
6         B-
7        AB+
8        AB-

Bir örnek

# Çalışma verilerini okuyup yazdırın
study_data = pd.read_csv('study.csv')
study_data

      name   birthday blood_type
1     Beth 2019-10-20         B-
2 Ignatius 2020-07-08         A-
3     Paul 2019-08-12         O+
4    Helen 2019-03-17         O-
5 Jennifer 2019-12-17         Z+  <--
6  Kennedy 2020-04-27         A+
7    Keith 2019-04-19        AB+

# Olası doğru kan grupları
categories

  blood_type
1         O-
2         O+
3         A-
4         A+
5         B+
6         B-
7        AB+
8        AB-

Birleştirmeler hakkında not

Kan gruplarında left anti join

Kan gruplarında inner join

Tutarsız kategorileri bulma

inconsistent_categories = set(study_data['blood_type']).difference(categories['blood_type'])
print(inconsistent_categories)

{'Z+'}

# Tutarsız kategorilere sahip satırları alın ve yazdırın
inconsistent_rows = study_data['blood_type'].isin(inconsistent_categories)

study_data[inconsistent_rows]

      name   birthday blood_type
5 Jennifer 2019-12-17         Z+

Tutarsız kategorileri kaldırma

inconsistent_categories = set(study_data['blood_type']).difference(categories['blood_type'])
inconsistent_rows = study_data['blood_type'].isin(inconsistent_categories)
inconsistent_data = study_data[inconsistent_rows]

# Tutarsız kategorileri çıkarın, yalnızca tutarlı verileri alın
consistent_data = study_data[~inconsistent_rows]

      name   birthday blood_type
1     Beth 2019-10-20         B-
2 Ignatius 2020-07-08         A-
3     Paul 2019-08-12         O+
4    Helen 2019-03-17         O-
...    ...      ...          ...

Haydi pratik yapalım!

Python ile Veri Temizleme