Analisis Data Eksploratif

Machine Learning Ujung ke Ujung

Joshua Stapleton

Machine Learning Engineer

Proses EDA

  • Periksa dan analisis dataset
  • Pahami dataset
  • Visualisasikan dataset
  • Karakterisasi / klasifikasikan dataset

Diagram yang menunjukkan berbagai komponen EDA pada dataset penyakit jantung pasien

Machine Learning Ujung ke Ujung

Memahami data kita

df.head()

  • Menampilkan baris awal dataset
  • Gambaran struktur data
# Print the first 5 rows
print(heart_disease_df.head())

Lima baris pertama DataFrame penyakit jantung kita. Hasil pemanggilan operasi df.head().

df.info()

  • Merangkum fitur
  • Menampilkan entri non-null dan tipe fitur
# Print out details
print(heart_disease_df.info())

Ringkasan informasi tentang DataFrame penyakit jantung kita. Hasil pemanggilan operasi df.info().

Machine Learning Ujung ke Ujung

Keseimbangan (tidak) kelas

df.value_counts()

  • Menghitung jumlah kemunculan unik tiap kelas
  • Kelas: ada/tidaknya penyakit jantung (1/0)
  • Penting untuk pemodelan
# print the class balance
print(heart_disease_df['target'].value_counts(normalize=True))

Keseimbangan kelas kolom target pada DataFrame penyakit jantung kita. Hasil pemanggilan operasi .value_counts() pada kolom target.

Machine Learning Ujung ke Ujung

Nilai hilang

  • Dapat menimbulkan kesalahan
  • Hasil tidak representatif, bias

Gunakan df.isnull()

  • Memeriksa nilai null/kosong/hilang
  • Diterapkan ke kolom atau kumpulan kolom

Penggunaan

# check whether all values in a column are null
print(heart_disease_df['oldpeak'].isnull().all())
True
Machine Learning Ujung ke Ujung

Outlier

  • Nilai anomali

    • Kesalahan pengukuran
    • Salah input data
    • Kejadian langka
  • Dapat mengacaukan kinerja model

    • Model belajar dari nilai ekstrem
    • Tak menangkap tren umum
  • Kadang bermanfaat:

    • Nilai langka
    • Deteksi: gunakan boxplot atau IQR

Visualisasi yang menampilkan sebuah outlier.

Machine Learning Ujung ke Ujung

Memvisualisasikan data

Visualisasi menunjukkan:

  • Tren umum
  • Nilai hilang dan outlier

Jenis visualisasi lain:

  • Estimasi kerapatan kernel (KDE)
  • Distribusi kumulatif empiris (ECDF)
  • Distribusi bivariat
df['age'].plot(kind='hist')
plt.xlabel('Age')
plt.ylabel('Frequency')
plt.show()

Visualisasi distribusi usia pada dataset kita.

1 https://seaborn.pydata.org/tutorial/distributions.html, https://app.datacamp.com/learn/courses/intermediate-data-visualization-with-seaborn
Machine Learning Ujung ke Ujung

Tujuan EDA

Memahami data

  • Ada pola?
  • Mis.: apakah pria lebih tinggi risikonya terkena penyakit jantung?

Deteksi outlier

  • Ada data di luar batas wajar?
  • Ada nilai salah atau hilang?

Rumuskan hipotesis

  • Apa yang kita harapkan dari data?

Uji asumsi

  • Apakah harapan sesuai kenyataan?
Machine Learning Ujung ke Ujung

Ayo berlatih!

Machine Learning Ujung ke Ujung

Preparing Video For Download...