Best practice per la validazione dei dati
Gestione responsabile dei dati per l'AI
Maria Prokofieva
Lead ML engineer
Cosa vedremo
Analisi per sottogruppi
Valori mancanti
Rimozione outlier
Correzione di incoerenze nei dati
Feature scaling
Feature encoding
Riduzione dimensionale
Analisi per sottogruppi
Dati mancanti
Comune nei dataset grandi
Eliminazione dati
Strategie di imputazione e approcci basati su modelli
Analisi per sottogruppi per validazione
Rimozione outlier
Metodi statistici come z-score e IQR, o scaling robusto
Valida l'equità tra segmenti di dati
Incoerenze nei dati
Qualità dei dati influisce su integrità e affidabilità del modello
Standardizzazione e regole di validazione
Normalizzazione per sottogruppi
Feature scaling
Feature scaling per trasformare le variabili in input
Valida controllando le distribuzioni tra gruppi
Feature encoding
Valuta l'effetto della codifica sugli output
Controlla bias e perdita di informazione
Verifica overfitting
Usa regolarizzazione e riduzione dimensionale
Riduzione dimensionale
Riduci le feature in input preservando le info essenziali
Può introdurre bias
Usa tecniche attente all'equità come t-SNE
Consulente finanziario
Feature "Reddito annuo" e "Frequenza investimenti"
Correggi outlier e scala
Analisi per sottogruppi
Vamos praticar!
Gestione responsabile dei dati per l'AI
Preparing Video For Download...