Python ile Survival Analysis
Shae Wang
Senior Data Scientist
Zamana-bağlı olay verilerinin sağkalım fonksiyonunu tahmin eden parametrik olmayan bir istatistik.
Tanımlar:
Sağkalım fonksiyonu $S(t)$ şu şekilde kestirilir: $$S(t)=\prod_{i:t_i\leq t}\bigg(1-\frac{d_i}{n_i}\bigg)$$
3 zamanda olaylar olsun: 1, 2, 3
$t=2$ için sağkalım oranı: $$S(t=2)=\bigg(1-\frac{d_1}{n_1}\bigg)*\bigg(1-\frac{d_2}{n_2}\bigg)$$
$t=3$ için sağkalım oranı: $$S(t=3)=S(t=2)*\bigg(1-\frac{d_3}{n_3}\bigg)$$
Zamandaki sağkalım oranı, o andaki ve önceki her andaki hayatta kalma yüzdelerinin çarpımına eşittir.
from lifelines import KaplanMeierFitter
KaplanMeierFitter: lifelines kütüphanesinin bir sınıfı
kmf = KaplanMeierFitter()
kmf.fit(durations, event_observed)
Veri Çerçevesi adı: mortgage_df
| id | duration | paid_off |
|---|---|---|
| 1 | 25 | 0 |
| 2 | 17 | 1 |
| 3 | 5 | 0 |
| ... | ... | ... |
| 100 | 30 | 1 |
Veri Çerçevesi adı: mortgage_df
| id | duration | paid_off |
|---|---|---|
| 1 | 25 | 0 |
| 2 | 17 | 1 |
| 3 | 5 | 0 |
| ... | ... | ... |
| 100 | 30 | 1 |
from lifelines import KaplanMeierFitter
mortgage_kmf = KaplanMeierFitter()
mortgage_kmf.fit(duration=mortgage_df["duration"],
event_observed=mortgage_df["paid_off"])
<lifelines.KaplanMeierFitter:"KM_estimate",
fitted with 100 total observations,
18 right-censored observations>
Bekleyen bir konut kredisinin medyan süresi nedir?
print(mortgage_kmf.median_survival_time_)
4.0
Başlangıçtan sonra her yıl kredinin hâlâ ödenmemiş olma olasılığı nedir?
print(mortgage_kmf.survival_function_)
KM_estimate
timeline
0.0 1.000000
1.0 0.983267
2.0 0.950933
3.0 0.892328
Başlangıçtan 34. yılda kredinin hâlâ ödenmemiş olma olasılığı nedir?
mortgage_kmf.predict(34)
0.037998
.median_survival_time_ hesaplanamaz.Python ile Survival Analysis