Verileri temizleme ve erişme

Python'da Kategorik Verilerle Çalışma

Kasey Jones

Research Data Scientist

Kategorik verilerde olası sorunlar

1) Tutarsız değerler: "Ham", "ham", " Ham"

2) Yazım hataları: "Ham", "Hma"

3) Yanlış dtype: df['Our Column'].dtype

dtype('O')
Python'da Kategorik Verilerle Çalışma

Sorunları belirleme

Şunlardan birini kullanın:

  • Series.cat.categories
  • Series.value_counts()
dogs["get_along_cats"].value_counts()
No     2503
yes     275
no      156
Noo       2
 NO       1
Python'da Kategorik Verilerle Çalışma

Düzeltme: boşluk

Boşlukları kaldırma: .strip()

dogs["get_along_cats"] = dogs["get_along_cats"].str.strip()

Frekans sayılarını kontrol edin:

dogs["get_along_cats"].value_counts()
No     2503
yes     275
no      156
Noo       2
NO        1   # < ---- artık boşluk yok
Python'da Kategorik Verilerle Çalışma

Düzeltme: büyük/küçük harf

Büyük/küçük harf: .title(), .upper(), .lower()

dogs["get_along_cats"] = dogs["get_along_cats"].str.title()

Frekans sayılarını kontrol edin:

dogs["get_along_cats"].value_counts()
No     2660 
Yes     275
Noo       2
Python'da Kategorik Verilerle Çalışma

Düzeltme: yazım hataları

.replace() ile yazım hatasını düzeltme

replace_map = {"Noo": "No"}
dogs["get_along_cats"].replace(replace_map, inplace=True)

Frekans sayılarını kontrol edin:

dogs["get_along_cats"].value_counts()
No     2662
Yes     275
Python'da Kategorik Verilerle Çalışma

Veri türünü kontrol etme

dtype kontrolü

dogs["get_along_cats"].dtype
dtype('O')

Yeniden kategoriye dönüştürme

dogs["get_along_cats"] = dogs["get_along_cats"].astype("category")
Python'da Kategorik Verilerle Çalışma

str erişicisini kullanma

Dizede arama

dogs["breed"].str.contains("Shepherd", regex=False)
0        False
1        False
2        False
...
2935     False
2936     True
Python'da Kategorik Verilerle Çalışma

loc ile verilere erişme

Kategoriyi temel alarak Series değerlerine erişme

dogs.loc[dogs["get_along_cats"] == "Yes", "size"]

Series frekansları:

dogs.loc[dogs["get_along_cats"] == "Yes", "size"].value_counts(sort=False)
small      69
medium    169
large      37
Python'da Kategorik Verilerle Çalışma

Temizleme ve erişim uygulaması

Python'da Kategorik Verilerle Çalışma

Preparing Video For Download...