Analisi di sopravvivenza in Python
Shae Wang
Senior Data Scientist
Statistica non parametrica che stima la funzione di sopravvivenza di dati di tempo-all'evento.
Definizioni:
La funzione di sopravvivenza $S(t)$ si stima con: $$S(t)=\prod_{i:t_i\leq t}\bigg(1-\frac{d_i}{n_i}\bigg)$$
Supponiamo eventi a 3 tempi: 1, 2, 3
Tasso di sopravvivenza per $t=2$: $$S(t=2)=\bigg(1-\frac{d_1}{n_1}\bigg)*\bigg(1-\frac{d_2}{n_2}\bigg)$$
Tasso di sopravvivenza per $t=3$: $$S(t=3)=S(t=2)*\bigg(1-\frac{d_3}{n_3}\bigg)$$
Il tasso di sopravvivenza al tempo t è il prodotto della probabilità di sopravvivere al tempo t e a ciascun tempo precedente.
from lifelines import KaplanMeierFitter
KaplanMeierFitter: una classe della libreria lifelines
kmf = KaplanMeierFitter()
kmf.fit(durations, event_observed)
Nome DataFrame: mortgage_df
| id | duration | paid_off |
|---|---|---|
| 1 | 25 | 0 |
| 2 | 17 | 1 |
| 3 | 5 | 0 |
| ... | ... | ... |
| 100 | 30 | 1 |
Nome DataFrame: mortgage_df
| id | duration | paid_off |
|---|---|---|
| 1 | 25 | 0 |
| 2 | 17 | 1 |
| 3 | 5 | 0 |
| ... | ... | ... |
| 100 | 30 | 1 |
from lifelines import KaplanMeierFitter
mortgage_kmf = KaplanMeierFitter()
mortgage_kmf.fit(duration=mortgage_df["duration"],
event_observed=mortgage_df["paid_off"])
<lifelines.KaplanMeierFitter:"KM_estimate",
fitted with 100 total observations,
18 right-censored observations>
Qual è la durata mediana di un mutuo pendente?
print(mortgage_kmf.median_survival_time_)
4.0
Qual è la probabilità che un mutuo resti pendente ogni anno dopo l'avvio?
print(mortgage_kmf.survival_function_)
KM_estimate
timeline
0.0 1.000000
1.0 0.983267
2.0 0.950933
3.0 0.892328
Qual è la probabilità che un mutuo non sia estinto entro il 34° anno dall'avvio?
mortgage_kmf.predict(34)
0.037998
.median_survival_time_ non si può calcolare.Analisi di sopravvivenza in Python