Integrazione dei dati
Gestione responsabile dei dati per l'AI
Maria Prokofieva
Lead ML engineer
Cosa vedremo
Perché serve l’integrazione
Benefici e complicazioni
Passi per integrare i dati
Perché più fonti?
Vista completa e dettagliata
Rete di sicurezza
Diversità e equità dei dati
Spiegabilità, trasparenza e responsabilità
Attenzione ai problemi
Compromettono la qualità
Introducono incoerenze
Amplificano i bias
Ridotta rappresentanza
Maggiore complessità del modello
Meno trasparenza e spiegabilità
1
Immagine di Streamline HQ
Passo 1. Selezione delle fonti dati
Segui i passi di valutazione
Valuta le fonti dati
Dataset più bilanciato e completo
Passo 2. Allineare i tipi di dato
Identifica variabili comuni
Standardizza nomi e formati
Normalizza i numeri
Consolida le categorie
Allinea la granularità
Passo 3. Migliorare bias e rappresentanza
Ponderazione
Conoscenza del dominio
Assegna pesi a gruppi sotto/sovra-rappresentati
Bilanciamento
Rappresentanza equa
Over/undersampling
Controlli algoritmici
Analisi dei gap
Passo 4. Documentare
Registri dettagliati:
Passi di integrazione dati
Decisioni prese
Metadati dettagliati:
Fonti dati
Metodologia di raccolta
Trasformazioni applicate
Progetto: flusso di traffico urbano
Seleziona le fonti dati
Identifica le feature comuni
Sviluppa un modello dati unificato
1
Immagini di Streamline HQ
Progetto: flusso di traffico urbano
Usa tecniche statistiche per bias e rappresentanza
Applica aggiustamenti di pesi
Analisi dei gap e ripesatura
Documenta
Ariamo a fare pratica!
Gestione responsabile dei dati per l'AI
Preparing Video For Download...