Menulis dokumentasi ML yang efektif

Mengembangkan Model Machine Learning untuk Produksi

Sinan Ozdemir

Data Scientist, Entrepreneur, and Author

Komponen dokumentasi ML yang unggul

  • Sumber data
  • Skema data
  • Metode pelabelan
  • Eksperimen + pemilihan model
  • Lingkungan pelatihan
  • Pseudocode model
Mengembangkan Model Machine Learning untuk Produksi

Mendokumentasikan sumber data

Memungkinkan kita menetapkan proses untuk mengevaluasi kualitas data.

Ini juga memberi manfaat lain:

  • Melacak asal data.
  • Mengevaluasi dan meningkatkan kualitas data.

sumber

Mengembangkan Model Machine Learning untuk Produksi

Skema data

Struktur yang menjelaskan organisasi data.

Untuk skema basis data relasional:

Kunci basis data Tipe data Skala data
Person.name string nominal
Person.survey_score integer ordinal

skema

Mengembangkan Model Machine Learning untuk Produksi

Metode pelabelan (untuk klasifikasi)

Mendokumentasikan cara kita memberi label variabel respons meningkatkan:

  1. Reprodusibilitas pipeline pelatihan.

  2. Keandalan model lewat kualitas label.

  3. Kinerja model lewat perbaikan label.

pilih

Metode pelabelan dapat berkembang seiring waktu.

Mengembangkan Model Machine Learning untuk Produksi

Pseudocode model

Representasi visual dari langkah-langkah membangun model machine learning Anda.

Biasanya mencakup:

  • Langkah rekayasa fitur.
  • Komponen pipeline ansambel.
  • Contoh input dan output model.
Mengembangkan Model Machine Learning untuk Produksi

Eksperimen + pemilihan model

Mendokumentasikan proses eksperimen dan pemilihan model terbaik mencakup:

  • Proses pengembangan model.
  • Model yang dipertimbangkan.
  • Metrik yang digunakan.
  • Kombinasi hiperparameter yang dicoba untuk tiap model.

pilihan

Mengembangkan Model Machine Learning untuk Produksi

Lingkungan pelatihan

Untuk mendokumentasikan lingkungan pelatihan, sertakan:

  • Paket yang digunakan beserta versinya (mis. scikit-learn==1.1.3).
  • Seed acak yang dipakai untuk pelatihan non-deterministik (mis. algoritme reduksi dimensi).

Mengapa?

  • Dapat mereproduksi hasil model machine learning.
  • Menjamin konsistensi antara pelatihan dan produksi.
Mengembangkan Model Machine Learning untuk Produksi

Ayo berlatih!

Mengembangkan Model Machine Learning untuk Produksi

Preparing Video For Download...