Python ile Veri Temizleme
Adel Nehme
Content Developer @DataCamp
Önceden tanımlı, sonlu kategori kümesi
| Veri türü | Örnek değerler | Sayısal gösterim |
|---|---|---|
| Medeni durum | unmarried, married |
0,1 |
| Hane geliri kategorisi | 0-20K, 20-40K, ... |
0,1, .. |
| Kredi durumu | default,payed,no_loan |
0,1,2 |
Medeni durum yalnızca unmarried veya married olabilir


# Çalışma verilerini okuyup yazdırın
study_data = pd.read_csv('study.csv')
study_data
name birthday blood_type
1 Beth 2019-10-20 B-
2 Ignatius 2020-07-08 A-
3 Paul 2019-08-12 O+
4 Helen 2019-03-17 O-
5 Jennifer 2019-12-17 Z+
6 Kennedy 2020-04-27 A+
7 Keith 2019-04-19 AB+
# Olası doğru kan grupları
categories
blood_type
1 O-
2 O+
3 A-
4 A+
5 B+
6 B-
7 AB+
8 AB-
# Çalışma verilerini okuyup yazdırın
study_data = pd.read_csv('study.csv')
study_data
name birthday blood_type
1 Beth 2019-10-20 B-
2 Ignatius 2020-07-08 A-
3 Paul 2019-08-12 O+
4 Helen 2019-03-17 O-
5 Jennifer 2019-12-17 Z+ <--
6 Kennedy 2020-04-27 A+
7 Keith 2019-04-19 AB+
# Olası doğru kan grupları
categories
blood_type
1 O-
2 O+
3 A-
4 A+
5 B+
6 B-
7 AB+
8 AB-



inconsistent_categories = set(study_data['blood_type']).difference(categories['blood_type'])
print(inconsistent_categories)
{'Z+'}
# Tutarsız kategorilere sahip satırları alın ve yazdırın inconsistent_rows = study_data['blood_type'].isin(inconsistent_categories)study_data[inconsistent_rows]
name birthday blood_type
5 Jennifer 2019-12-17 Z+
inconsistent_categories = set(study_data['blood_type']).difference(categories['blood_type']) inconsistent_rows = study_data['blood_type'].isin(inconsistent_categories) inconsistent_data = study_data[inconsistent_rows]# Tutarsız kategorileri çıkarın, yalnızca tutarlı verileri alın consistent_data = study_data[~inconsistent_rows]
name birthday blood_type
1 Beth 2019-10-20 B-
2 Ignatius 2020-07-08 A-
3 Paul 2019-08-12 O+
4 Helen 2019-03-17 O-
... ... ... ...
Python ile Veri Temizleme