Analisi di sopravvivenza in Python
Shae Wang
Senior Data Scientist
Funzione di rischio $h(t)$: probabilità che l’evento avvenga in un istante, dato che si è sopravvissuti fino ad allora.
Tasso di rischio: tasso istantaneo dell’evento
$$h(t)=-\frac{d}{dt}logS(t)$$
La funzione di rischio $h(t)$ e la funzione di sopravvivenza $S(t)$ si ricavano a vicenda.
Assunzione dei rischi proporzionali: i rischi di tutti gli individui sono proporzionali tra loro.
Per gli individui $A$ e $B$: $$h_A(t)=ch_B(t)$$

Basato sull’assunzione dei rischi proporzionali: $$h(t|x)=b_0(t)exp\bigg(\sum^{n}_{i=1}b_i(x_i-\overline{x_i}\bigg)$$
$b_0(t)$: funzione di rischio base (di popolazione) che varia nel tempo.
$exp\bigg(\sum^{n}_{i=1}b_i(x_i-\overline{x_i}\bigg)$: relazione lineare tra covariate e log del rischio, NON varia nel tempo.
CoxPHFitterfrom lifelines import CoxPHFitter
coxph = CoxPHFitter()
.fit() per adattare il modello ai daticoxph.fit(df, duration_col, event_col)
coxph.summary()
coxph.predict()
mortgage_dfhouseprincipal interest property_taxcredit_scoreduration, paid_offfrom lifelines import CoxPHFittercoxph = CoxPHFitter() coxph.fit(df=mortgage_df, duration_col="duration", event_col="paid_off")
Filtra il DataFrame:
new_df = mortgage_df.loc[:,
mortgage_df.columns!="house"]
coxph.fit(df=new_df,
duration_col="duration",
event_col="paid_off")
Usa il parametro formula:
coxph.fit(df=mortgage_df,
duration_col="duration",
event_col="paid_off",
formula="principal + interest
+ property_tax + credit_score")
print(coxph.summary)
<lifelines.CoxPHFitter: fitted with 1808 observations, 340 censored>
coef exp(coef) se(coef) z p
covariate house -0.38 0.68 0.19. -1.98 0.05
principal -0.06 0.94 0.02 -2.61 0.01
interest 0.31 1.37 0.31 1.02 0.31
property_tax -0.15 0.86 0.21 -0.71 0.48
credit_score -0.43 0.65 0.38 -1.14. 0.26
interest dalla sua mediana -> il rischio cambia di un fattore $e^{0.31}=1.37$, cioè +37% rispetto al rischio base.Analisi di sopravvivenza in Python