Entrepôts de données et lacs de données

Présentation de l’ingénierie des données

Hadrien Lacroix

Content Developer

Entrepôts avec vue imprenable sur le lac

Présentation de l’ingénierie des données

pipeline

Présentation de l’ingénierie des données

Lacs de données et entrepôts de données

Lac de données

  • Stocke toutes les données brutes
  • Peut atteindre des pétaoctets (1 million de Go)
  • Stocke toutes les structures de données
  • Rentable
  • Difficile à analyser
  • Nécessite un catalogue de données à jour
  • Utilisé par les data scientists
  • Big data, analyse en temps réel

Entrepôt de données

  • Des données spécifiques pour une utilisation spécifique
  • Relativement petit
  • Stocke principalement des données structurées
  • Mise à jour plus coûteuse
  • Optimisé pour l'analyse des données
  • Utilisé également par les analystes de données et les analystes commerciaux
  • Requêtes ad hoc, en lecture seule
Présentation de l’ingénierie des données

Catalogue de données pour les lacs de données

  • Quelle est la source de ces données ?
  • Où ces données sont-elles utilisées ?
  • Qui est le propriétaire des données ?
  • À quelle fréquence ces données sont-elles mises à jour ?
  • Bonnes pratiques en matière de gouvernance des données
  • Assure la reproductibilité
  • Pas de catalogue --> marécage de données
  • Bonne pratique pour toute solution de stockage de données
    • Fiabilité
    • Autonomie
    • Évolutivité
    • Vitesse
Présentation de l’ingénierie des données

Base de données vs entrepôt de données

  • Base de données :
    • Terme général
    • Il s'agit de données organisées, stockées et accessibles sur un ordinateur
  • Un entrepôt de données est un type de base de données
Présentation de l’ingénierie des données

Résumé

  • Lacs de données
  • Entrepôts de données
  • Bases de données
  • Catalogue de données
Présentation de l’ingénierie des données

Passons à la pratique !

Présentation de l’ingénierie des données

Preparing Video For Download...