Kategori değişkenlerini ayarlama

Python'da Kategorik Verilerle Çalışma

Kasey Jones

Research Data Scientist

Yeni veri seti: sahiplenilebilir köpekler

dogs.info()  
RangeIndex: 2937 entries, 0 to 2936, Data columns (total 19 columns):
 #   Column             Non-Null Count  Dtype  
 --  ------             --------------  -----  
 0   ID                 2937 non-null   int64  
 ...
 8   color              2937 non-null   object 
 9   coat               2937 non-null   object 
 ...
 17  get_along_cats     431 non-null    object 
 18  keep_in            1916 non-null   object 
dtypes: float64(1), int64(1), object(17)
memory usage: 436.1+ KB
...
1 https://www.kaggle.com/jmolitoris/adoptable-dogs
Python'da Kategorik Verilerle Çalışma

Bir köpeğin tüyü

dogs["coat"] = dogs["coat"].astype("category")
dogs["coat"].value_counts(dropna=False)
short         1972
medium         565
wirehaired     220
long           180
Name: coat, dtype: int64
Python'da Kategorik Verilerle Çalışma

.cat erişimcisinin kullanımı

Series.cat.method_name

Yaygın parametreler:

  • new_categories: kategori listesi
  • inplace: Boolean - güncellemenin Seriyi üzerine yazıp yazmayacağı
  • ordered: Boolean - kategorik değişkenin sıralı olarak işlenip işlenmeyeceği
Python'da Kategorik Verilerle Çalışma

Seri kategorilerini ayarlama

Kategorileri ayarlayın:

dogs["coat"] = dogs["coat"].cat.set_categories(
  new_categories=["short", "medium", "long"]
)

Değer sayılarını kontrol edin:

dogs["coat"].value_counts(dropna=False)
short     1972
medium     565
NaN        220
long       180
Python'da Kategorik Verilerle Çalışma

Sıralamayı ayarlama

dogs["coat"] = dogs["coat"].cat.set_categories(
  new_categories=["short", "medium", "long"],
  ordered=True
)
dogs["coat"].head(3)
0     short
1     short
2     short
Name: coat, dtype: category
Categories (3, object): ['short' < 'medium' < 'long']
Python'da Kategorik Verilerle Çalışma

Eksik kategoriler

dogs["likes_people"].value_counts(dropna=False)
yes    1991
NaN     938
no        8

Bir NaN şu anlama gelebilir:

  1. Gerçekten bilinmiyor (kontrol edilmedi)
  2. Emin değiliz (köpek "bazı" insanları seviyor)
Python'da Kategorik Verilerle Çalışma

Kategoriler ekleme

Kategoriler ekleyin

dogs["likes_people"] = dogs["likes_people"].astype("category")
dogs["likes_people"] = dogs["likes_people"].cat.add_categories(
  new_categories=["did not check", "could not tell"]
)

Kategorileri kontrol edin:

dogs["likes_people"].cat.categories
Index(['no', 'yes', 'did not check', 'could not tell'], dtype='object')
Python'da Kategorik Verilerle Çalışma

Yeni kategoriler

dogs["likes_people"].value_counts(dropna=False)
yes               1991
NaN                938
no                   8
could not tell       0
did not check        0
Python'da Kategorik Verilerle Çalışma

Kategorileri kaldırma

dogs["coat"] = dogs["coat"].astype("category")
dogs["coat"] = dogs["coat"].cat.remove_categories(removals=["wirehaired"])

Kategorileri kontrol edin:

dogs["coat"].cat.categories
Index(['long', 'medium', 'short'], dtype='object')
Python'da Kategorik Verilerle Çalışma

Yöntem özeti

  • Ayarlama: cat.set_categories()
    • Kategorilerin sırasını belirlemek için kullanılabilir
    • Bu yöntemde belirtilmeyen tüm değerler düşürülür
  • Ekleme: cat.add_categories()
    • DataFrame'deki mevcut değerleri değiştirmez
    • Bu yöntemde listelenmeyen kategorilere dokunulmaz
  • Kaldırma: cat.remove_categories()
    • Listelenen kategorilere uyan değerler NaN yapılır
Python'da Kategorik Verilerle Çalışma

Kategorileri güncelleme alıştırması

Python'da Kategorik Verilerle Çalışma

Preparing Video For Download...