Analisi di sopravvivenza in Python
Shae Wang
Senior Data Scientist
Nome DataFrame: battery_df
| ID batteria | Durata | Guasta | Marca | Camion |
|---|---|---|---|---|
| 1 | 2,5 anni | No | Marca A | Lungo |
| 2 | 6 anni | Sì | Marca B | Corto |
| 3 | 5 anni | No | Marca B | Lungo |
| ... | ... | ... | ... | ... |
| 1000 | 4,5 anni | Sì | Marca A | Corto |
Qual è la vita media della batteria?
np.average(battery_df["Duration"])


Quando il tempo di sopravvivenza è noto solo in parte.
Come avviene la censura?

Statistiche aggregate
np.average(), max(), min().Regressione
$$S(t)=Pr(T>t)$$


Si possono individuare i dati censurati?
Passo 1) Cerca colonne di censura (spesso già preprocessate).
Troppi dati sono censurati?
Passo 2) Verifica la quota di punti censurati (regola pratica: 50%).
La censura è non informativa e casuale?
Passo 3) Indaga le cause della censura per assicurarti che l'essere censurato non influisca sulla sopravvivenza.
Analisi di sopravvivenza in Python