Analisi di sopravvivenza in Python
Shae Wang
Senior Data Scientist
Dati di esempio con $n=5$:
| duration | observed |
|---|---|
| 2 | 1 |
| 5 | 0 |
| 3 | 1 |
| 5 | 1 |
| 2 | 0 |
Passo 1: Ordina i dati in modo crescente. Se ci sono pareggi, i dati censurati vanno dopo quelli non censurati.
Passo 2: Per ogni $t_i$, calcola $d_i$, $n_i$ e $\big(1-\frac{d_i}{n_i}\big)$
Passo 3: Per ogni $t_i$, moltiplica $\big(1-\frac{d_i}{n_i}\big)$ per $\big(1-\frac{d_{i-1}}{n_{i-1}}\big)$, $\big(1-\frac{d_{i-2}}{n_{i-2}}\big)$, ... , $\big(1-\frac{d_0}{n_0}\big)$
Passo 1: Ordina le durate in modo crescente. Se ci sono pareggi, i dati censurati vanno dopo quelli non censurati.
| duration |
|---|
| 2 |
| 5+ |
| 3 |
| 5 |
| 2+ |
Usa il segno "+" per indicare i dati censurati: 2, 5+, 3, 5, 2+
Passo 1: Ordina le durate in modo crescente. Se ci sono pareggi, i dati censurati vanno dopo quelli non censurati.
| $t_i$ |
|---|
| 2, 2+ |
| 3 |
| 5, 5+ |
Passo 2: Per ogni $t_i$, calcola $d_i$, $n_i$ e $\big(1-\frac{d_i}{n_i}\big)$
| $t_i$ |
|---|
| 2, 2+ |
| 3 |
| 5, 5+ |
Passo 2: Per ogni $t_i$, calcola $d_i$, $n_i$ e $\big(1-\frac{d_i}{n_i}\big)$
| $t_i$ | $d_i$ |
|---|---|
| 2, 2+ | 1 |
| 3 | 1 |
| 5, 5+ | 1 |
Passo 2: Per ogni $t_i$, calcola $d_i$, $n_i$ e $\big(1-\frac{d_i}{n_i}\big)$
| $t_i$ | $d_i$ | $n_i$ |
|---|---|---|
| 2, 2+ | 1 | 5 |
| 3 | 1 | 3 |
| 5, 5+ | 1 | 2 |
Passo 2: Per ogni $t_i$, calcola $d_i$, $n_i$ e $\big(1-\frac{d_i}{n_i}\big)$
| $t_i$ | $d_i$ | $n_i$ | $\big(1-\frac{d_i}{n_i}\big)$ |
|---|---|---|---|
| 2, 2+ | 1 | 5 | $4/5$ |
| 3 | 1 | 3 | $2/3$ |
| 5, 5+ | 1 | 2 | $1/2$ |
Passo 3: Per ogni $t_i$, moltiplica $\big(1-\frac{d_i}{n_i}\big)$ per $\big(1-\frac{d_{i-1}}{n_{i-1}}\big)$, $\big(1-\frac{d_{i-2}}{n_{i-2}}\big)$, ... , $\big(1-\frac{d_0}{n_0}\big)$
| $t_i$ | $d_i$ | $n_i$ | $\big(1-\frac{d_i}{n_i}\big)$ | $S(t_i)$ |
|---|---|---|---|---|
| 2, 2+ | 1 | 5 | 4/5 | 4/5 = 0,8 |
| 3 | 1 | 3 | 2/3 | 4/5 $\cdot$ 2/3 = 0,53 |
| 5, 5+ | 1 | 2 | 1/2 | 4/5 $\cdot$ 2/3 $\cdot$ 1/2 = 0,27 |
| $t_i$ | $d_i$ | $n_i$ | $\big(1-\frac{d_i}{n_i}\big)$ | $S(t_i)$ |
|---|---|---|---|---|
| 2, 2+ | 1 | 5 | $4/5$ | 0,8 |
| 3 | 1 | 3 | $2/3$ | 0,53 |
| 5, 5+ | 1 | 2 | $1/2$ | 0,27 |


Le probabilità di sopravvivenza a ogni tempo tra 0 e 5.
Fraintendimento comune: se la curva va a 0, nessun soggetto è sopravvissuto.
from lifelines import KaplanMeierFitter
import matplotlib.pyplot as plt
kmf = KaplanMeierFitter()
kmf.fit(durations, event_observed)
kmf.survival_function_.plot()
plt.show()
Nome DataFrame: mortgage_df
| id | duration | paid_off |
|---|---|---|
| 1 | 25 | 0 |
| 2 | 17 | 1 |
| 3 | 5 | 0 |
| ... | ... | ... |
| 100 | 30 | 1 |
from lifelines import KaplanMeierFitter
from matplotlib import pyplot as plt
mortgage_kmf = KaplanMeierFitter()
mortgage_kmf.fit(duration=mortgage_df["duration"],
event_observed=mortgage_df["paid_off"])
mortgage_kmf.survival_function_.plot()
plt.show()

mortgage_kmf.plot_survival_function()
plt.show()

Traccia le stime puntuali della funzione di sopravvivenza come linea continua.
kmf.survival_function_.plot()
plt.show()

Traccia la funzione di sopravvivenza come linea a gradini senza intervallo di confidenza.
kmf.plot(ci_show=False)
plt.show()

Traccia la funzione di sopravvivenza come linea a gradini con l’intervallo di confidenza.
kmf.plot()
plt.show()

Un altro modo...
kmf.plot_survival_function()
plt.show()
Analisi di sopravvivenza in Python