Limiti delle fonti dati

Gestione responsabile dei dati per l'AI

Maria Prokofieva

Lead ML Engineer

Fonti dati e limiti comuni

  • Conformità legale
  • Bias
  • Metodologia
  • Ruolo della conoscenza del dominio
Gestione responsabile dei dati per l'AI

Limiti legali e di accesso

  • Uso limitato dei dati per certi progetti
  • Conformità aggiuntiva
  • Costo proibitivo

 

Conformità dei dati

1 Immagine di Streamline HQ
Gestione responsabile dei dati per l'AI

Bias nelle fonti dati

  • Errori sistematici
  • Percezioni distorte
  • Esiti disomogenei
  • Svantaggiano alcuni gruppi
Gestione responsabile dei dati per l'AI

Tipi di bias

  • Bias storico:
    • Pattern e risultati irrilevanti
  • Bias di selezione:
    • Scelta dei punti dati da includere
  • Bias di campionamento
    • Metodo usato per il campionamento

Scala del bias

1 Immagine di Streamline HQ
Gestione responsabile dei dati per l'AI

Bias e limiti legati all’origine

  • Copertura dati limitata
  • Vincoli culturali e geografici
  • Ambito e inclusione ristretti

   

Gruppo di persone

Gestione responsabile dei dati per l'AI

Bias e limiti legati alla metodologia

  • Scelta dei metodi di raccolta
  • Approcci di campionamento

Mani multicolori con palmi aperti, alzate

Gestione responsabile dei dati per l'AI

Conoscenza del dominio

  • Limiti o bias nascosti
  • Coinvolgi presto gli esperti di dominio
  • Mitiga i limiti prima del modeling
Gestione responsabile dei dati per l'AI

Progetto: flusso del traffico urbano

Fonti dati:

  • Conteggi del traffico
  • Verbali del consiglio comunale
  • Dati di tracciamento GPS

Progetto sul flusso del traffico urbano

1 Immagini di Streamline HQ
Gestione responsabile dei dati per l'AI

Progetto: flusso del traffico urbano

Dati storici sui conteggi del traffico:

  • Bias storico
  • Vecchi assetti urbani

Verbali delle riunioni:

  • Bias di selezione
  • Rappresentazione sproporzionata di alcuni membri della comunità

dati sul traffico

1 Immagini di Streamline HQ
Gestione responsabile dei dati per l'AI

Progetto: flusso del traffico urbano

Dati di tracciamento GPS:

  • Bias di campionamento e selezione
  • Potrebbe non rappresentare tutti i pendolari

gps

1 Immagine di Streamline HQ
Gestione responsabile dei dati per l'AI

Passiamo alla pratica!

Gestione responsabile dei dati per l'AI

Preparing Video For Download...