Analisis Survival dengan Python
Shae Wang
Senior Data Scientist
Nama DataFrame: battery_df
| ID Baterai | Durasi | Mati | Merek | Truk |
|---|---|---|---|---|
| 1 | 2,5 th | Tidak | Merek A | Panjang |
| 2 | 6 th | Ya | Merek B | Pendek |
| 3 | 5 th | Tidak | Merek B | Panjang |
| ... | ... | ... | ... | ... |
| 1000 | 4,5 th | Ya | Merek A | Pendek |
Berapa rata-rata usia baterai?
np.average(battery_df["Duration"])


Saat waktu survival hanya diketahui sebagian.
Bagaimana sensor terjadi?

Statistik agregat
np.average(), max(), min().Regresi
$$S(t)=Pr(T>t)$$


Bisakah kita mengidentifikasi data yang tersensor?
Langkah 1) Periksa kolom sensor (sering sudah dipraolah).
Apakah terlalu banyak data yang tersensor?
Langkah 2) Cek proporsi data yang tersensor (aturan praktis: 50%).
Apakah sensor non-informatif dan acak?
Langkah 3) Telusuri penyebab sensor untuk memastikan bahwa disensor atau tidaknya tidak memengaruhi survival.
Analisis Survival dengan Python