Traitement des données

Présentation de l’ingénierie des données

Hadrien Lacroix

Content Developer at DataCamp

pipeline de données

Présentation de l’ingénierie des données

déplacer les données vers le lac de données

Présentation de l’ingénierie des données

déplacer les données vers le lac de données

Présentation de l’ingénierie des données

vérification des données corrompues

Présentation de l’ingénierie des données

Une définition générale

  • Traitement des données : conversion des données brutes en informations significatives
Présentation de l’ingénierie des données

Valeur du traitement des données

Conceptuellement

  • Supprimer les données indésirables
  • Optimiser les coûts de mémoire, de processus et de réseau
  • Convertir des données d'un type à un autre

Chez Spotflix

  • Pas de besoin à long terme de tester les données des caractéristiques
  • Impossible de stocker et de diffuser des fichiers aussi volumineux
Présentation de l’ingénierie des données

pipeline de données

Présentation de l’ingénierie des données

pipeline de données

Présentation de l’ingénierie des données

pipeline de données

Présentation de l’ingénierie des données

Valeur du traitement des données

Conceptuellement

  • Supprimer les données indésirables
  • Pour préserver la mémoire
  • Convertir des données d'un type à un autre
  • Organiser les données
  • S'inscrire dans un schéma/une structure
  • Augmenter la productivité

Chez Spotflix

  • Pas besoin de format sans perte
  • Impossible de stocker des fichiers aussi volumineux
  • Convertir des chansons de .flac à .ogg
  • Réorganiser les données du lac de données vers les entrepôts de données
  • Exemple de table des employés
  • Permettre le travail des data scientists
Présentation de l’ingénierie des données

Comment les ingénieurs traitent les données

  • Tâches de manipulation, de nettoyage et de rangement des données
    • qui peuvent être automatisées
    • qu'il faudra toujours faire
  • Stocker les données dans une base de données raisonnablement structurée
  • Créer des vues au-dessus des tables de la base de données
  • Optimiser les performances de la base de données
  • Rejeter les fichiers de chansons corrompus
  • Décider ce qu'il advient des métadonnées manquantes
  • Séparer les tables des artistes et des albums…
  • …mais fournir une vue les combinant
  • Indexation
Présentation de l’ingénierie des données

1 La différence entre les lots et les flux sera expliquée dans la prochaine leçon !
Présentation de l’ingénierie des données

Logo Apache Spark

Présentation de l’ingénierie des données

Résumé

  • Qu'est-ce que le traitement des données ?
  • Pourquoi c'est nécessaire ?
  • En quoi il consiste ?
  • Comment nous traitons les données chez Spotflix
Présentation de l’ingénierie des données

Passons à la pratique !

Présentation de l’ingénierie des données

Preparing Video For Download...