Kurs tanıtımı

Python'da Kategorik Verilerle Çalışma

Kasey Jones

Research Data Scientist

“Kategorik” ne demektir?

Kategorik

  • Sonlu sayıda grup (kategori)
  • Kategoriler genelde sabit veya bilinir (göz rengi, saç rengi vb.)
  • Nitel veriler olarak da bilinir

Sayısal

  • Nicel veriler olarak bilinir
  • Sayısal bir değerle ifade edilir
  • Genelde bir ölçümdür (boy, kilo, IQ vb.)
Python'da Kategorik Verilerle Çalışma

Sıralı vs. sınıflayıcı değişkenler

Sıralı (ordinal)

  • Doğal bir sırası olan kategorik değişkenler

Anket yanıtları genelde kesinlikle katılmıyorumdan kesinlikle katılıyorumadek uzanır. Bu kategorilerin mantıksal bir sırası vardır.

Sınıflayıcı (nominal)

  • Doğal bir sıraya konamayan kategorik değişkenler

Bazen renk listesi (“Mavi”, “Yeşil”, “Kırmızı”, “Sarı”, “Mor”) gibi kategorilerin mantıksal bir sırası yoktur.

Python'da Kategorik Verilerle Çalışma

İlk veri setimiz

adult.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32561 entries, 0 to 32560
Data columns (total 15 columns):
 #   Column           Non-Null Count  Dtype 
 --  ------           --------------  ----- 
 0   Age              32561 non-null  int64 
 1   Workclass        32561 non-null  object
 2   fnlgwt           32561 non-null  int64 
 3   Education        32561 non-null  object
 4   Education Num    32561 non-null  int64 
 5   Marital Status   32561 non-null  object
...
1 https://www.kaggle.com/uciml/adult-census-income
Python'da Kategorik Verilerle Çalışma

describe kullanımı

adult["Marital Status"].describe()
count                   32561
unique                      7
top        Married-civ-spouse
freq                    14976
Name: Marital Status, dtype: object
Python'da Kategorik Verilerle Çalışma

value_counts kullanımı

adult["Marital Status"].value_counts()
 Married-civ-spouse       14976
 Never-married            10683
 Divorced                  4443
 Separated                 1025
 Widowed                    993
 Married-spouse-absent      418
 Married-AF-spouse           23
Name: Marital Status, dtype: int64
Python'da Kategorik Verilerle Çalışma

normalize ile value_counts

adult["Marital Status"].value_counts(normalize=True)
 Married-civ-spouse       0.459937
 Never-married            0.328092
 Divorced                 0.136452
 Separated                0.031479
 Widowed                  0.030497
 Married-spouse-absent    0.012837
 Married-AF-spouse        0.000706
Name: Marital Status, dtype: float64
Python'da Kategorik Verilerle Çalışma

Bilgi kontrolü

Python'da Kategorik Verilerle Çalışma

Preparing Video For Download...