Mengapa pakai analisis survival?

Analisis Survival dengan Python

Shae Wang

Senior Data Scientist

Contoh rata-rata usia baterai

Nama DataFrame: battery_df

ID Baterai Durasi Mati Merek Truk
1 2,5 th Tidak Merek A Panjang
2 6 th Ya Merek B Pendek
3 5 th Tidak Merek B Panjang
... ... ... ... ...
1000 4,5 th Ya Merek A Pendek

Berapa rata-rata usia baterai?

np.average(battery_df["Duration"])
Analisis Survival dengan Python

Contoh rata-rata usia baterai

Kartun sensor usia baterai.

Analisis Survival dengan Python

Sensor pada usia baterai

Kartun sensor usia baterai.

  • $T_{duration} \neq T_{lifetime}$ untuk baterai yang belum mati.
  • Baterai 1, 3, 4, dan baterai lain yang kegagalannya belum teramati dihitung tidak tepat dalam perataan.
Analisis Survival dengan Python

Masalah sensor

Saat waktu survival hanya diketahui sebagian.

Bagaimana sensor terjadi?

  • Peristiwa belum terjadi saat akhir observasi.
    • mis. pengguna uji coba gratis belum konversi ke berbayar di akhir eksperimen.
  • Data individu hilang karena dropout atau kehilangan kontak.
    • mis. pengguna uji coba gratis menolak membagikan data untuk eksperimen.
Analisis Survival dengan Python

Jenis sensor

Kartun jenis sensor.

  • Tidak tersensor: peristiwa terjadi dan durasi survival diketahui.
  • Right-censored: durasi survival lebih besar dari durasi teramati.
  • Left-censored: durasi survival lebih kecil dari durasi teramati.
  • Interval-censored: durasi survival ada dalam rentang tertentu tetapi tidak persis diketahui.
Analisis Survival dengan Python

Mengapa sensor bermasalah?

Statistik agregat

  • Jenis data hilang.
  • Menggeser statistik, mis. np.average(), max(), min().

Regresi

  • Garis regresi linier meminimalkan jumlah kuadrat galat.
  • Untuk data tersensor, kita tidak tahu nilai galatnya.
Analisis Survival dengan Python

Fungsi survival

  • Tidak mengimputasi data tersensor.
  • Memodelkan probabilitas durasi survival lebih besar dari nilai tertentu.

  $$S(t)=Pr(T>t)$$

Analisis Survival dengan Python

Analisis survival vs. sensor

Kartun data tidak tersensor.

Kartun data tersensor.

Analisis Survival dengan Python

Memeriksa data untuk sensor

Bisakah kita mengidentifikasi data yang tersensor?

Langkah 1) Periksa kolom sensor (sering sudah dipraolah).

Apakah terlalu banyak data yang tersensor?

Langkah 2) Cek proporsi data yang tersensor (aturan praktis: 50%).

Apakah sensor non-informatif dan acak?

Langkah 3) Telusuri penyebab sensor untuk memastikan bahwa disensor atau tidaknya tidak memengaruhi survival.

Analisis Survival dengan Python

Ayo berlatih!

Analisis Survival dengan Python

Preparing Video For Download...