Integrazione dei dati

Gestione responsabile dei dati per l'AI

Maria Prokofieva

Lead ML engineer

Cosa vedremo

  • Perché serve l’integrazione
  • Benefici e complicazioni
  • Passi per integrare i dati
Gestione responsabile dei dati per l'AI

Perché più fonti?

  • Vista completa e dettagliata
  • Rete di sicurezza
  • Diversità e equità dei dati
  • Spiegabilità, trasparenza e responsabilità
Gestione responsabile dei dati per l'AI

Attenzione ai problemi

  • Compromettono la qualità
  • Introducono incoerenze
  • Amplificano i bias
  • Ridotta rappresentanza
  • Maggiore complessità del modello
  • Meno trasparenza e spiegabilità

Segnale triangolare di pericolo

1 Immagine di Streamline HQ
Gestione responsabile dei dati per l'AI

Passo 1. Selezione delle fonti dati

  • Segui i passi di valutazione
  • Valuta le fonti dati
  • Dataset più bilanciato e completo
Gestione responsabile dei dati per l'AI

Passo 2. Allineare i tipi di dato

  • Identifica variabili comuni
  • Standardizza nomi e formati
  • Normalizza i numeri
  • Consolida le categorie
  • Allinea la granularità

Cooperazione di un team

Gestione responsabile dei dati per l'AI

Passo 3. Migliorare bias e rappresentanza

  • Ponderazione
    • Conoscenza del dominio
    • Assegna pesi a gruppi sotto/sovra-rappresentati
  • Bilanciamento
    • Rappresentanza equa
    • Over/undersampling
  • Controlli algoritmici
  • Analisi dei gap

Un atto di equilibrio

Gestione responsabile dei dati per l'AI

Passo 4. Documentare

  • Registri dettagliati:
    • Passi di integrazione dati
    • Decisioni prese
  • Metadati dettagliati:
    • Fonti dati
    • Metodologia di raccolta
    • Trasformazioni applicate

Gestione di cartelle

Gestione responsabile dei dati per l'AI

Progetto: flusso di traffico urbano

  • Seleziona le fonti dati
  • Identifica le feature comuni
  • Sviluppa un modello dati unificato

Progetto sul flusso del traffico urbano

1 Immagini di Streamline HQ
Gestione responsabile dei dati per l'AI

Progetto: flusso di traffico urbano

  • Usa tecniche statistiche per bias e rappresentanza
  • Applica aggiustamenti di pesi
  • Analisi dei gap e ripesatura
  • Documenta
Gestione responsabile dei dati per l'AI

Ariamo a fare pratica!

Gestione responsabile dei dati per l'AI

Preparing Video For Download...