Analisis Survival dengan Python
Shae Wang
Senior Data Scientist
Nama DataFrame: mortgage_df
| id | property type | duration | paid_off |
|---|---|---|---|
| 1 | house | 25 | 0 |
| 2 | apartment | 17 | 1 |
| 3 | apartment | 5 | 0 |
| ... | ... | ... | ... |
| 100 | house | 30 | 1 |
Property type: jenis rumah yang dibiayai hipotek (house atau apartment)
Kita sering menilai apakah ada perbedaan survival (atau peluang kejadian/survival) antar kelompok subjek.
Memasang fungsi survival Kaplan–Meier untuk tiap kelompok dan menampilkan kurvanya berdampingan.
Manfaat:
Nama DataFrame: mortgage_df
| id | property type | duration | paid_off |
|---|---|---|---|
| 1 | house | 25 | 0 |
| 2 | apartment | 17 | 1 |
| 3 | apartment | 5 | 0 |
| ... | ... | ... | ... |
| 100 | house | 30 | 1 |
Buat mask Boolean untuk tiap kelompok.
house = (mortgage_df["property_type"]=="house")
apt = (mortgage_df["property_type"]=="apartment")
Jika hanya ada 2 kelompok, cukup 1 mask. Kelompok lain bisa dirujuk dengan negasi.
Buat satu figure dan instansiasi kelas KaplanMeierFitter.
ax = plt.subplot(111)
mortgage_kmf = KaplanMeierFitter()
Fit mortgage_kmf ke kelompok house dan plot pada figure ax.
mortgage_kmf.fit(duration=mortgage_df[house]["duration"],
event_observed=mortgage_df[house]["paid_off"],
label="Houses")
mortgage_kmf.plot_survival_function(ax=ax)
Fit mortgage_kmf ke kelompok apartment dan plot pada figure ax.
mortgage_kmf.fit(duration=mortgage_df[apt]["duration"],
event_observed=mortgage_df[apt]["paid_off"],
label="Apartments")
mortgage_kmf.plot_survival_function(ax=ax)
plt.show()


Catatan: jika interval kepercayaan saling tumpang tindih di beberapa titik, kemungkinan perbedaan kurva tidak nyata.
Analisis Survival dengan Python