Python ile Veri Temizleme
Adel Nehme
VP of AI Curriculum, DataCamp
Tüm sütunlarda aynı değerler var
| first_name | last_name | address | height | weight |
|---|---|---|---|---|
| Justin | Saddlemyer | Boulevard du Jardin Botanique 3, Bruxelles | 193 cm | 87 kg |
| Justin | Saddlemyer | Boulevard du Jardin Botanique 3, Bruxelles | 193 cm | 87 kg |
Sütunların çoğunda aynı değerler var
| first_name | last_name | address | height | weight |
|---|---|---|---|---|
| Justin | Saddlemyer | Boulevard du Jardin Botanique 3, Bruxelles | 193 cm | 87 kg |
| Justin | Saddlemyer | Boulevard du Jardin Botanique 3, Bruxelles | 194 cm | 87 kg |



# Başlığı yazdır
height_weight.head()
first_name last_name address height weight
0 Lane Reese 534-1559 Nam St. 181 64
1 Ivor Pierce 102-3364 Non Road 168 66
2 Roary Gibson P.O. Box 344, 7785 Nisi Ave 191 99
3 Shannon Little 691-2550 Consectetuer Street 185 65
4 Abdul Fry 4565 Risus St. 169 65
# Tüm sütunlarda yinelenenleri al
duplicates = height_weight.duplicated()
print(duplicates)
1 False
... ....
22 True
23 False
... ...
# Yinelenen satırları al
duplicates = height_weight.duplicated()
height_weight[duplicates]
first_name last_name address height weight
100 Mary Colon 4674 Ut Rd. 179 75
101 Ivor Pierce 102-3364 Non Road 168 88
102 Cole Palmer 8366 At, Street 178 91
103 Desirae Shannon P.O. Box 643, 5251 Consectetuer, Rd. 196 83
.duplicated() yöntemi
subset: Yinelenmeyi kontrol etmek için sütun adları listesi.
keep: Yinelenenlerin hangisini tutacağını belirtir: ilk ('first'), son ('last') veya tümü (False).
# Yinelenmeyi kontrol edilecek sütun adları
column_names = ['first_name','last_name','address']
duplicates = height_weight.duplicated(subset = column_names, keep = False)
# Yinelenen değerleri yazdır
height_weight[duplicates]
first_name last_name address height weight
1 Ivor Pierce 102-3364 Non Road 168 66
22 Cole Palmer 8366 At, Street 178 91
28 Desirae Shannon P.O. Box 643, 5251 Consectetuer, Rd. 195 83
37 Mary Colon 4674 Ut Rd. 179 75
100 Mary Colon 4674 Ut Rd. 179 75
101 Ivor Pierce 102-3364 Non Road 168 88
102 Cole Palmer 8366 At, Street 178 91
103 Desirae Shannon P.O. Box 643, 5251 Consectetuer, Rd. 196 83
# Yinelenen değerleri yazdır
height_weight[duplicates].sort_values(by = 'first_name')
first_name last_name address height weight
22 Cole Palmer 8366 At, Street 178 91
102 Cole Palmer 8366 At, Street 178 91
28 Desirae Shannon P.O. Box 643, 5251 Consectetuer, Rd. 195 83
103 Desirae Shannon P.O. Box 643, 5251 Consectetuer, Rd. 196 83
1 Ivor Pierce 102-3364 Non Road 168 66
101 Ivor Pierce 102-3364 Non Road 168 88
37 Mary Colon 4674 Ut Rd. 179 75
100 Mary Colon 4674 Ut Rd. 179 75
# Yinelenen değerleri yazdır
height_weight[duplicates].sort_values(by = 'first_name')

# Yinelenen değerleri yazdır
height_weight[duplicates].sort_values(by = 'first_name')

# Yinelenen değerleri yazdır
height_weight[duplicates].sort_values(by = 'first_name')

.drop_duplicates() yöntemi
subset: Yinelenmeyi kontrol etmek için sütun adları listesi.
keep: Yinelenenlerin hangisini tutacağını belirtir: ilk ('first'), son ('last') veya tümü (False).
inplace: Yeni nesne oluşturmadan yinelenen satırları doğrudan DataFrame içinde düşürür (True).
# Yinelenenleri düşür
height_weight.drop_duplicates(inplace = True)
# Yinelenen değerleri yazdır
column_names = ['first_name','last_name','address']
duplicates = height_weight.duplicated(subset = column_names, keep = False)
height_weight[duplicates].sort_values(by = 'first_name')
first_name last_name address height weight
28 Desirae Shannon P.O. Box 643, 5251 Consectetuer, Rd. 195 83
103 Desirae Shannon P.O. Box 643, 5251 Consectetuer, Rd. 196 83
1 Ivor Pierce 102-3364 Non Road 168 66
101 Ivor Pierce 102-3364 Non Road 168 88
# Yinelenen değerleri yazdır
column_names = ['first_name','last_name','address']
duplicates = height_weight.duplicated(subset = column_names, keep = False)
height_weight[duplicates].sort_values(by = 'first_name')

.groupby() ve .agg() yöntemleri
# Sütun adlarına göre gruplayıp özet istatistikler üretin column_names = ['first_name','last_name','address'] summaries = {'height': 'max', 'weight': 'mean'} height_weight = height_weight.groupby(by = column_names).agg(summaries).reset_index()# Birleştirmenin yapıldığından emin olun duplicates = height_weight.duplicated(subset = column_names, keep = False) height_weight[duplicates].sort_values(by = 'first_name')
first_name last_name address height weight
Python ile Veri Temizleme