Survivalanalyse in Python
Shae Wang
Senior Data Scientist
DataFrame-naam: battery_df
| Batterij-ID | Duur | Dood | Merk | Truck |
|---|---|---|---|---|
| 1 | 2,5 jr | Nee | Merk A | Lang |
| 2 | 6 jr | Ja | Merk B | Kort |
| 3 | 5 jr | Nee | Merk B | Lang |
| ... | ... | ... | ... | ... |
| 1000 | 4,5 jr | Ja | Merk A | Kort |
Wat is de gemiddelde batterijlevensduur?
np.average(battery_df["Duration"])


Wanneer de overlevingstijd slechts deels bekend is.
Hoe ontstaat censurering?

Geaggregeerde statistieken
np.average(), max(), min().Regressie
$$S(t)=Pr(T>t)$$


Kun je zien welke datapunten gecensureerd zijn?
Stap 1) Zoek naar kolommen over censurering (vaak al voorbewerkt).
Is er te veel data gecensureerd?
Stap 2) Check het aandeel gecensureerde datapunten (vuistregel: 50%).
Is de censurering niet-informerend en willekeurig?
Stap 3) Onderzoek de oorzaken om te borgen dat censurering geen effect heeft op overleving.
Survivalanalyse in Python