Analisis Survival dengan Python
Shae Wang
Senior Data Scientist
Statistik nonparametrik yang memperkirakan fungsi survival dari data waktu-ke-peristiwa.
Definisi:
Fungsi survival $S(t)$ diperkirakan dengan: $$S(t)=\prod_{i:t_i\leq t}\bigg(1-\frac{d_i}{n_i}\bigg)$$
Misal peristiwa terjadi pada 3 waktu: 1, 2, 3
Laju survival untuk $t=2$: $$S(t=2)=\bigg(1-\frac{d_1}{n_1}\bigg)*\bigg(1-\frac{d_2}{n_2}\bigg)$$
Laju survival untuk $t=3$: $$S(t=3)=S(t=2)*\bigg(1-\frac{d_3}{n_3}\bigg)$$
Laju survival pada waktu t sama dengan hasil kali peluang bertahan pada waktu t dan semua waktu sebelumnya.
from lifelines import KaplanMeierFitter
KaplanMeierFitter: kelas di pustaka lifelines
kmf = KaplanMeierFitter()
kmf.fit(durations, event_observed)
Nama DataFrame: mortgage_df
| id | duration | paid_off |
|---|---|---|
| 1 | 25 | 0 |
| 2 | 17 | 1 |
| 3 | 5 | 0 |
| ... | ... | ... |
| 100 | 30 | 1 |
Nama DataFrame: mortgage_df
| id | duration | paid_off |
|---|---|---|
| 1 | 25 | 0 |
| 2 | 17 | 1 |
| 3 | 5 | 0 |
| ... | ... | ... |
| 100 | 30 | 1 |
from lifelines import KaplanMeierFitter
mortgage_kmf = KaplanMeierFitter()
mortgage_kmf.fit(duration=mortgage_df["duration"],
event_observed=mortgage_df["paid_off"])
<lifelines.KaplanMeierFitter:"KM_estimate",
fitted with 100 total observations,
18 right-censored observations>
Berapa median lamanya hipotek masih berjalan?
print(mortgage_kmf.median_survival_time_)
4.0
Berapa probabilitas hipotek masih berjalan tiap tahun setelah dimulai?
print(mortgage_kmf.survival_function_)
KM_estimate
timeline
0.0 1.000000
1.0 0.983267
2.0 0.950933
3.0 0.892328
Berapa probabilitas hipotek belum lunas pada tahun ke-34 setelah dimulai?
mortgage_kmf.predict(34)
0.037998
.median_survival_time_ tidak dapat dihitung.Analisis Survival dengan Python