Qualité et intégration des données

Concepts MLOps

Folkert Stijnman

ML Engineer

Qualité et intégration des données

Machine learning lifecycle data acquisition

Concepts MLOps

Qu'est-ce que la qualité des données ?

  • La qualité des données est une mesure de la capacité des données à remplir leur fonction prévue
  • Évalué selon différents critères
  • La qualité du modèle de ML dépend des données
Concepts MLOps

Dimensions de la qualité des données

  • Précision
  • Exhaustivité
  • Cohérence
  • Rapidité d’exécution
Concepts MLOps

Exemple de dimensions de la qualité des données

Dimension Exemple de question à laquelle répondre Exemple de qualité dimensionnelle
Précision Nos données décrivent-elles correctement le client ? L'âge du client indiqué dans les données est de 18 ans, mais il a en réalité 32 ans.
Exhaustivité Y a-t-il des données clients manquantes ? Pour 80 % des clients, nous ne disposons pas de nom de famille.
Cohérence La définition du client est-elle synchronisée à l'échelle de l'entreprise ? Le client est répertorié comme actif dans une base de données, mais inactif dans une autre.
Rapidité d'exécution Quand les données relatives aux commandes des clients sont-elles disponibles ? Les commandes des clients sont synchronisées à la fin de la journée, mais ne sont pas disponibles en temps réel.

Une qualité médiocre des données ne signifie pas la fin du projet !

Concepts MLOps

Ingestion de données

Data pipeline

Concepts MLOps

Passons à la pratique !

Concepts MLOps

Preparing Video For Download...