Fonti dati

Gestione responsabile dei dati per l'AI

Maria Prokofieva

Lead ML engineer

In arrivo...

  • Tipi di fonti dati
  • Limiti e selezione
  • Integrazione di più fonti

Persone che prendono documenti dagli scaffali, usano una lente e cercano file in un database elettronico

Gestione responsabile dei dati per l'AI

Perché la fonte dati è importante

  • Integrità
  • Diversità
  • Rappresentazione equa

preparazione delle fonti dati

1 Immagine di Streamline HQ
Gestione responsabile dei dati per l'AI

Tipi per origine

  • Primarie

    • Dati raccolti nel progetto
    • Conformità e consenso
  • Secondarie

    • Dati acquisiti da risorse esistenti
    • Accordi di licenza

Contratto di licenza, concetto astratto

Gestione responsabile dei dati per l'AI

Tipi per natura

  • Quantitativi

    • Dati numerici
  • Qualitativi

    • Non numerici
  • Misti

    • Combinazione di numerici e non numerici

da numeri a testo

1 Immagine di Streamline HQ
Gestione responsabile dei dati per l'AI

Tipi per temporalità

  • Statici
    • Non cambiano nel tempo
    • Dati censuari
    • Indirizzi aziendali
  • Dinamici
    • Aggiornati in tempo reale
    • Flussi social media
    • API
    • Feed di mercato finanziario
    • Dati da sensori

flussi dinamici

1 Immagine di Streamline HQ
Gestione responsabile dei dati per l'AI

Diversità ed equità nelle fonti dati

  • Bias diretti dei raccoglitori di dati
  • Verifiche di bias misurabili
  • Non rappresentano l’attualità, bias datati
  • Bias ereditati dal contesto originario
  • Analisi sfumata
  • Evolvono continuamente, possibili bias in tempo reale
Gestione responsabile dei dati per l'AI

Progetto: flusso del traffico urbano

Fonti dati:

  • Dati storici sul traffico
  • Verbali del consiglio comunale
  • Dati GPS

Progetto sul flusso del traffico urbano

1 Immagini di Streamline HQ
Gestione responsabile dei dati per l'AI

Dati storici sul traffico

  • Dipartimento trasporti della città
  • Ultimi 5 anni
  • Include conteggi veicoli e orari del giorno/settimana

Questa è una fonte primaria statica quantitativa

dati sul traffico

1 Immagine di Streamline HQ
Gestione responsabile dei dati per l'AI

Verbali delle riunioni del consiglio

  • Registri pubblici sul sito del consiglio
  • Sintesi di pianificazione urbana e gestione traffico

Questa è una fonte secondaria qualitativa

verbali

1 Immagine di Streamline HQ
Gestione responsabile dei dati per l'AI

Dati GPS

  • Fonte primaria dinamica
  • Insight immediati su condizioni, velocità e ritardi

GPS

1 Immagine di Streamline HQ
Gestione responsabile dei dati per l'AI

Ayo berlatih!

Gestione responsabile dei dati per l'AI

Preparing Video For Download...