Kategorik veriler için değerlendirmeler

Python ile Keşifsel Veri Analizi

George Boorman

Curriculum Manager, DataCamp

Neden EDA yapılır?

  • Desenleri ve ilişkileri bulma

 

 

  • Sorular veya hipotezler üretme

 

 

  • Makine öğrenmesi için veriyi hazırlama

Kırmızı neon ışıkta soru işareti

1 Image credit: https://unsplash.com/@simonesecci
Python ile Keşifsel Veri Analizi

Temsili veri

  • Örneklem kitleyi temsil eder

Örneğin:

  • ABD'de eğitim ve gelir
    • Fransa verisi kullanılamaz

ABD bayrağı

Fransa bayrağı

1 Image credits: https://unsplash.com/@cristina_glebova; https://unsplash.com/@nimbus_vulpis
Python ile Keşifsel Veri Analizi

Kategorik sınıflar

  • Sınıflar = etiketler

 

  • Evlilik tutumlarını araştırma
    • Medeni hâl
      • Bekar
      • Evli
      • Boşanmış
Python ile Keşifsel Veri Analizi

Sınıf dengesizliği

bir örnekte medeni hâl sayı grafiği: 700 boşanmış, 250 bekar, 50 evli

Python ile Keşifsel Veri Analizi

Sınıf sıklığı

print(planes["Destination"].value_counts())
Cochin       4391
Banglore     2773
Delhi        1219
New Delhi     888
Hyderabad     673
Kolkata       369
Name: Destination, dtype: int64
Python ile Keşifsel Veri Analizi

Göreli sınıf sıklığı

  • İç hat Hindistan uçuşlarının %40'ı Delhi varışlıdır
planes["Destination"].value_counts(normalize=True)
Cochin       0.425773
Banglore     0.268884
Delhi        0.118200
New Delhi    0.086105
Hyderabad    0.065257
Kolkata      0.035780
Name: Destination, dtype: float64
  • Örneklemimiz kitleyi (Hindistan iç hat uçuşları) temsil ediyor mu?
Python ile Keşifsel Veri Analizi

Çapraz tablo

pd-dot-crosstab çağırın

pd.crosstab(
Python ile Keşifsel Veri Analizi

Dizin seçin

Dizin olarak kullanılacak sütunu seçin

pd.crosstab(planes["Source"],
Python ile Keşifsel Veri Analizi

Sütunları seçin

Sütunu seçin

pd.crosstab(planes["Source"], planes["Destination"])
Python ile Keşifsel Veri Analizi

Çapraz tablo

Destination  Banglore  Cochin  Delhi  Hyderabad  Kolkata  New Delhi
Source                                                             
Banglore            0       0   1199          0        0        868
Chennai             0       0      0          0      364          0
Delhi               0    4318      0          0        0          0
Kolkata          2720       0      0          0        0          0
Mumbai              0       0      0        662        0          0
Python ile Keşifsel Veri Analizi

Çapraz tabloyu genişletme

Source Destination Median Price (IDR)
Banglore Delhi 4232.21
Banglore New Delhi 12114.56
Chennai Kolkata 3859.76
Delhi Cochin 9987.63
Kolkata Banglore 9654.21
Mumbai Hyderabad 3431.97
Python ile Keşifsel Veri Analizi

pd.crosstab() ile özet değerler

pd.crosstab(planes["Source"], planes["Destination"],

values=planes["Price"], aggfunc="median")
Destination  Banglore   Cochin   Delhi  Hyderabad  Kolkata  New Delhi
Source                                                               
Banglore          NaN      NaN  4823.0        NaN      NaN    10976.5
Chennai           NaN      NaN     NaN        NaN   3850.0        NaN
Delhi             NaN  10262.0     NaN        NaN      NaN        NaN
Kolkata        9345.0      NaN     NaN        NaN      NaN        NaN
Mumbai            NaN      NaN     NaN     3342.0      NaN        NaN
Python ile Keşifsel Veri Analizi

Örneklem ile kitleyi karşılaştırma

Source Destination Median Price (IDR) Median Price (dataset)
Banglore Delhi 4232.21 4823.0
Banglore New Delhi 12114.56 10976.50
Chennai Kolkata 3859.76 3850.0
Delhi Cochin 9987.63 10260.0
Kolkata Banglore 9654.21 9345.0
Mumbai Hyderabad 3431.97 3342.0
Python ile Keşifsel Veri Analizi

Hadi pratik yapalım!

Python ile Keşifsel Veri Analizi

Preparing Video For Download...