Keşifsel Veri Analizi

Uçtan Uca Machine Learning

Joshua Stapleton

Machine Learning Engineer

EDA süreci

  • Veri setini inceleyin ve analiz edin
  • Veri setini anlayın
  • Veri setini görselleştirin
  • Veri setini tanımlayın / sınıflandırın

Hasta kalp hastalığı veri setine uygulanan EDA bileşenlerini gösteren bir diyagram

Uçtan Uca Machine Learning

Verimizi anlama

df.head()

  • Veri setinin ilk satırlarını gösterir
  • Yapıya hızlı bir bakış sağlar
# Print the first 5 rows
print(heart_disease_df.head())

Kalp hastalığı DataFrame'imizin ilk 5 satırı. df.head() çağrısının sonuçları.

df.info()

  • Özellikleri özetler
  • Boş olmayan kayıtları ve türlerini gösterir
# Print out details
print(heart_disease_df.info())

Kalp hastalığı DataFrame'imizin özet bilgisi. df.info() çağrısının sonuçları.

Uçtan Uca Machine Learning

Sınıf (d)engesizliği

df.value_counts()

  • Her sınıfın benzersiz oluş sayılarını verir
  • Sınıf: kalp hastalığı var/yok (1/0)
  • Modellemede önemlidir
# print the class balance
print(heart_disease_df['target'].value_counts(normalize=True))

Kalp hastalığı DataFrame'imizin hedef sütununun sınıf dengesi. target sütununda .value_counts() çağrısının sonuçları.

Uçtan Uca Machine Learning

Eksik değerler

  • Hatalara yol açabilir
  • Temsilsiz, önyargılı sonuçlar

df.isnull() kullanın

  • Null/boş/eksik değerleri kontrol eder
  • Sütuna veya sütun grubuna uygulanır

Kullanım

# bir sütundaki tüm değerler null mı kontrol edin
print(heart_disease_df['oldpeak'].isnull().all())
True
Uçtan Uca Machine Learning

Aykırı değerler

  • Anormal değerler

    • Ölçüm hataları
    • Veri giriş hataları
    • Nadir olaylar
  • Model performansını bozabilir

    • Model aşırı değerlere göre öğrenir
    • Genel eğilimi yakalayamaz
  • Bazen faydalı olabilir:

    • Nadir değerler
    • Tespit: boxplot veya IQR kullanın

Bir aykırı değeri gösteren görselleştirme.

Uçtan Uca Machine Learning

Verimizi görselleştirme

Görselleştirmeler şunları gösterir:

  • Genel eğilimler
  • Eksik değerler ve aykırılar

Diğer görselleştirme türleri:

  • Çekirdek yoğunluk kestirimi (KDE)
  • Ampirik kümülatif dağılımlar (ECDF)
  • İkili değişken dağılımları
df['age'].plot(kind='hist')
plt.xlabel('Age')
plt.ylabel('Frequency')
plt.show()

Veri setimizde yaş dağılımını gösteren görselleştirme.

1 https://seaborn.pydata.org/tutorial/distributions.html, https://app.datacamp.com/learn/courses/intermediate-data-visualization-with-seaborn
Uçtan Uca Machine Learning

EDA hedefleri

Veriyi anlayın

  • Desen var mı?
  • Örn: erkeklerde kalp hastalığı oranı daha mı yüksek?

Aykırı değerleri saptayın

  • Kabul edilebilir aralığın dışında veri var mı?
  • Hatalı veya eksik değerler var mı?

Hipotez kurun

  • Veriden ne beklemeliyiz?

Varsayımları kontrol edin

  • Beklentilerimiz gerçeklikle uyumlu mu?
Uçtan Uca Machine Learning

Hadi pratik yapalım!

Uçtan Uca Machine Learning

Preparing Video For Download...