Scrivere documentazione ML efficace

Sviluppare modelli di Machine Learning per la produzione

Sinan Ozdemir

Data Scientist, Entrepreneur, and Author

Componenti di un’ottima documentazione ML

  • Fonti dati
  • Schemi dati
  • Metodi di etichettatura
  • Sperimentazione + selezione del modello
  • Ambienti di training
  • Pseudocodice del modello
Sviluppare modelli di Machine Learning per la produzione

Documentare le fonti dati

Consente di definire processi per valutare la qualità dei dati.

Offre anche altri vantaggi:

  • Tenere traccia dell’origine dei dati.
  • Valutare e iterare sulla qualità dei dati.

fonti

Sviluppare modelli di Machine Learning per la produzione

Schemi dati

Una struttura che descrive l’organizzazione dei dati.

Per uno schema di database relazionale:

Chiave database Tipo di dato Ordine dei dati
Person.name string nominale
Person.survey_score integer ordinale

schema

Sviluppare modelli di Machine Learning per la produzione

Metodi di etichettatura (per classificazione)

Documentare come abbiamo etichettato la variabile risposta migliora:

  1. La riproducibilità della pipeline di training.

  2. L’affidabilità del modello grazie alla qualità delle etichette.

  3. Le prestazioni del modello migliorando le etichette.

seleziona

I metodi di etichettatura possono evolvere nel tempo.

Sviluppare modelli di Machine Learning per la produzione

Pseudocodice del modello

Una rappresentazione visiva delle fasi per creare il tuo modello di machine learning.

Include spesso:

  • Passi di feature engineering.
  • Componenti di una pipeline ensemble.
  • Esempi di input e output del modello.
Sviluppare modelli di Machine Learning per la produzione

Sperimentazione + selezione del modello

Documentare l’esperimentazione e la selezione del miglior modello include:

  • Il processo di sviluppo.
  • I modelli considerati.
  • Le metriche usate.
  • Le combinazioni di iperparametri provate per ogni modello.

scelta

Sviluppare modelli di Machine Learning per la produzione

Ambienti di training

Per documentare l’ambiente di training, includi:

  • Pacchetti usati con versioni (es. scikit-learn==1.1.3).
  • Eventuali seed casuali per training non deterministico (es. algoritmi di riduzione dimensionale).

Perché?

  • Riprodurre i risultati dei modelli di machine learning.
  • Garantire coerenza tra training e produzione.
Sviluppare modelli di Machine Learning per la produzione

Ayo berlatih!

Sviluppare modelli di Machine Learning per la produzione

Preparing Video For Download...