Benzersizlik kısıtları

Python ile Veri Temizleme

Adel Nehme

VP of AI Curriculum, DataCamp

Yinelenen değerler nedir?

Tüm sütunlarda aynı değerler var

first_name last_name address height weight
Justin Saddlemyer Boulevard du Jardin Botanique 3, Bruxelles 193 cm 87 kg
Justin Saddlemyer Boulevard du Jardin Botanique 3, Bruxelles 193 cm 87 kg
Python ile Veri Temizleme

Yinelenen değerler nedir?

Sütunların çoğunda aynı değerler var

first_name last_name address height weight
Justin Saddlemyer Boulevard du Jardin Botanique 3, Bruxelles 193 cm 87 kg
Justin Saddlemyer Boulevard du Jardin Botanique 3, Bruxelles 194 cm 87 kg
Python ile Veri Temizleme

Neden olur?

duplicate_1

Python ile Veri Temizleme

Neden olur?

duplicate_2

Python ile Veri Temizleme

Neden olur?

duplicate_3

Python ile Veri Temizleme

Yinelenen değerler nasıl bulunur?

# Başlığı yazdır
height_weight.head()
  first_name last_name                       address  height  weight
0       Lane     Reese              534-1559 Nam St.     181      64
1       Ivor    Pierce             102-3364 Non Road     168      66
2      Roary    Gibson   P.O. Box 344, 7785 Nisi Ave     191      99
3    Shannon    Little  691-2550 Consectetuer Street     185      65
4      Abdul       Fry                4565 Risus St.     169      65
Python ile Veri Temizleme

Yinelenen değerler nasıl bulunur?

# Tüm sütunlarda yinelenenleri al
duplicates = height_weight.duplicated()
print(duplicates)
1       False
...     ....
22      True
23      False
...     ...
Python ile Veri Temizleme

Yinelenen değerler nasıl bulunur?

# Yinelenen satırları al
duplicates = height_weight.duplicated()
height_weight[duplicates]
    first_name last_name                               address  height  weight
100       Mary     Colon                           4674 Ut Rd.     179      75
101       Ivor    Pierce                     102-3364 Non Road     168      88
102       Cole    Palmer                       8366 At, Street     178      91
103    Desirae   Shannon  P.O. Box 643, 5251 Consectetuer, Rd.     196      83
Python ile Veri Temizleme

Yinelenen satırlar nasıl bulunur?

.duplicated() yöntemi

subset: Yinelenmeyi kontrol etmek için sütun adları listesi.

keep: Yinelenenlerin hangisini tutacağını belirtir: ilk ('first'), son ('last') veya tümü (False).

# Yinelenmeyi kontrol edilecek sütun adları
column_names = ['first_name','last_name','address']
duplicates = height_weight.duplicated(subset = column_names, keep = False)
Python ile Veri Temizleme

Yinelenen satırlar nasıl bulunur?

# Yinelenen değerleri yazdır
height_weight[duplicates]
    first_name last_name                               address  height  weight
1         Ivor    Pierce                     102-3364 Non Road     168      66
22        Cole    Palmer                       8366 At, Street     178      91
28     Desirae   Shannon  P.O. Box 643, 5251 Consectetuer, Rd.     195      83
37        Mary     Colon                           4674 Ut Rd.     179      75
100       Mary     Colon                           4674 Ut Rd.     179      75
101       Ivor    Pierce                     102-3364 Non Road     168      88
102       Cole    Palmer                       8366 At, Street     178      91
103    Desirae   Shannon  P.O. Box 643, 5251 Consectetuer, Rd.     196      83
Python ile Veri Temizleme

Yinelenen satırlar nasıl bulunur?

# Yinelenen değerleri yazdır
height_weight[duplicates].sort_values(by = 'first_name')
    first_name last_name                               address  height  weight
22        Cole    Palmer                       8366 At, Street     178      91
102       Cole    Palmer                       8366 At, Street     178      91
28     Desirae   Shannon  P.O. Box 643, 5251 Consectetuer, Rd.     195      83
103    Desirae   Shannon  P.O. Box 643, 5251 Consectetuer, Rd.     196      83
1         Ivor    Pierce                     102-3364 Non Road     168      66
101       Ivor    Pierce                     102-3364 Non Road     168      88
37        Mary     Colon                           4674 Ut Rd.     179      75
100       Mary     Colon                           4674 Ut Rd.     179      75
Python ile Veri Temizleme

Yinelenen satırlar nasıl bulunur?

# Yinelenen değerleri yazdır
height_weight[duplicates].sort_values(by = 'first_name')

Tam yinelenenler

Python ile Veri Temizleme

Yinelenen satırlar nasıl bulunur?

# Yinelenen değerleri yazdır
height_weight[duplicates].sort_values(by = 'first_name')

Kısmi yinelenenler

Python ile Veri Temizleme

Yinelenen değerler nasıl ele alınır?

# Yinelenen değerleri yazdır
height_weight[duplicates].sort_values(by = 'first_name')

Tam yinelenenler

Python ile Veri Temizleme

Yinelenen değerler nasıl ele alınır?

.drop_duplicates() yöntemi

subset: Yinelenmeyi kontrol etmek için sütun adları listesi.

keep: Yinelenenlerin hangisini tutacağını belirtir: ilk ('first'), son ('last') veya tümü (False).

inplace: Yeni nesne oluşturmadan yinelenen satırları doğrudan DataFrame içinde düşürür (True).

# Yinelenenleri düşür
height_weight.drop_duplicates(inplace = True)
Python ile Veri Temizleme

Yinelenen değerler nasıl ele alınır?

# Yinelenen değerleri yazdır
column_names = ['first_name','last_name','address']
duplicates = height_weight.duplicated(subset = column_names, keep = False)
height_weight[duplicates].sort_values(by = 'first_name')
    first_name last_name                               address  height  weight
28     Desirae   Shannon  P.O. Box 643, 5251 Consectetuer, Rd.     195      83
103    Desirae   Shannon  P.O. Box 643, 5251 Consectetuer, Rd.     196      83
1         Ivor    Pierce                     102-3364 Non Road     168      66
101       Ivor    Pierce                     102-3364 Non Road     168      88
Python ile Veri Temizleme

Yinelenen değerler nasıl ele alınır?

# Yinelenen değerleri yazdır
column_names = ['first_name','last_name','address']
duplicates = height_weight.duplicated(subset = column_names, keep = False)
height_weight[duplicates].sort_values(by = 'first_name')

Yinelenenleri birleştirme

Python ile Veri Temizleme

Yinelenen değerler nasıl ele alınır?

.groupby() ve .agg() yöntemleri

# Sütun adlarına göre gruplayıp özet istatistikler üretin
column_names = ['first_name','last_name','address']
summaries = {'height': 'max', 'weight': 'mean'}
height_weight = height_weight.groupby(by = column_names).agg(summaries).reset_index()

# Birleştirmenin yapıldığından emin olun duplicates = height_weight.duplicated(subset = column_names, keep = False) height_weight[duplicates].sort_values(by = 'first_name')
first_name    last_name    address    height    weight

Python ile Veri Temizleme

Haydi pratik yapalım!

Python ile Veri Temizleme

Preparing Video For Download...