Entrepôts de données et lacs de données
Présentation de l’ingénierie des données
Hadrien Lacroix
Content Developer
Entrepôts avec vue imprenable sur le lac
Lacs de données et entrepôts de données
Lac de données
Stocke toutes les données brutes
Peut atteindre des pétaoctets (1 million de Go)
Stocke toutes les structures de données
Rentable
Difficile à analyser
Nécessite un catalogue de données à jour
Utilisé par les data scientists
Big data, analyse en temps réel
Entrepôt de données
Des données spécifiques pour une utilisation spécifique
Relativement petit
Stocke principalement des données structurées
Mise à jour plus coûteuse
Optimisé pour l'analyse des données
Utilisé également par les analystes de données et les analystes commerciaux
Requêtes ad hoc, en lecture seule
Catalogue de données pour les lacs de données
Quelle est la source de ces données ?
Où ces données sont-elles utilisées ?
Qui est le propriétaire des données ?
À quelle fréquence ces données sont-elles mises à jour ?
Bonnes pratiques en matière de gouvernance des données
Assure la reproductibilité
Pas de catalogue --> marécage de données
Bonne pratique pour toute solution de stockage de données
Fiabilité
Autonomie
Évolutivité
Vitesse
Base de données vs entrepôt de données
Base de données :
Terme général
Il s'agit de
données organisées, stockées et accessibles sur un ordinateur
Un entrepôt de données est un type de base de données
Résumé
Lacs de données
Entrepôts de données
Bases de données
Catalogue de données
Passons à la pratique !
Présentation de l’ingénierie des données
Preparing Video For Download...