Pipeline de données

Présentation de l’ingénierie des données

Hadrien Lacroix

Content Developer at DataCamp

Si les données sont le nouveau pétrole…

les données sont le nouveau pétrole - couverture de l'économiste

1 The Economist, 2017-05-06, par David Parkins
Présentation de l’ingénierie des données

puits de pétrole

Présentation de l’ingénierie des données

conduite du puits de pétrole

Présentation de l’ingénierie des données

distillation

Présentation de l’ingénierie des données

résidu

Présentation de l’ingénierie des données

pétrole lourd

Présentation de l’ingénierie des données

diesel

Présentation de l’ingénierie des données

kérosène

Présentation de l’ingénierie des données

naphta

Présentation de l’ingénierie des données

essence

Présentation de l’ingénierie des données

le kérosène est livré directement à l'aéroport

Présentation de l’ingénierie des données

l'essence est livrée à l'installation de stockage de gaz

Présentation de l’ingénierie des données

l'essence est livrée des installations de stockage de gaz aux stations-service

Présentation de l’ingénierie des données

le naphta subit des transformations chimiques

Présentation de l’ingénierie des données

le plastique est envoyé à l'usine

Présentation de l’ingénierie des données

Retour à l'ingénierie des données

  • Ingestion
  • Processus
  • Stockage
  • Besoin de pipelines
  • Automatisation du flux d'une station à l'autre
  • Transmission de données actualisées, précises et pertinentes

$$

Ingénieur de données

Présentation de l’ingénierie des données

mobile

Présentation de l’ingénierie des données

ordinateur

Présentation de l’ingénierie des données

site web

Présentation de l’ingénierie des données

tuyaux à partir d'une application mobile, d'une application de bureau et d'un site web

Présentation de l’ingénierie des données

rack de données

Présentation de l’ingénierie des données

artistes

Présentation de l’ingénierie des données

albums

Présentation de l’ingénierie des données

morceaux

Présentation de l’ingénierie des données

listes de lecture

Présentation de l’ingénierie des données

clients

Présentation de l’ingénierie des données

employés

Présentation de l’ingénierie des données

Base de données sur les artistes

Présentation de l’ingénierie des données

personnel de vente

Présentation de l’ingénierie des données

employés du secteur de l'ingénierie

Présentation de l’ingénierie des données

Employés de service

Présentation de l’ingénierie des données

Employés de vente aux États-Unis

Présentation de l’ingénierie des données

Employés de vente en Belgique

Présentation de l’ingénierie des données

Employés de vente en France

Présentation de l’ingénierie des données

vérifier et nettoyer les morceaux

Présentation de l’ingénierie des données

écrire des données correctes dans la base de données

Présentation de l’ingénierie des données

Présentation de l’ingénierie des données

Présentation de l’ingénierie des données

Présentation de l’ingénierie des données

Présentation de l’ingénierie des données

Présentation de l’ingénierie des données

Présentation de l’ingénierie des données

Présentation de l’ingénierie des données

Présentation de l’ingénierie des données

Présentation de l’ingénierie des données

Oprah distribue des pipelines

Présentation de l’ingénierie des données

Oprah distribue des pipelines

Présentation de l’ingénierie des données

Oprah distribue des pipelines

Présentation de l’ingénierie des données

Les pipelines de données assurent un flux efficace des données.

Automatisation

  • Extraction
  • Transformation
  • Regroupement
  • Validation
  • Chargement

Réduction

  • Intervention humaine
  • Erreurs
  • Temps de circulation des données
Présentation de l’ingénierie des données

ETL et pipelines de données

ETL

  • Cadre populaire pour la conception de pipelines de données
  • 1) Extraire des données
  • 2) Transformer les données extraites
  • 3) Charger les données transformées dans une autre base de données

Pipelines de données

  • Déplacer des données d'un système à un autre
  • Peut suivre l'ETL
  • Les données peuvent ne pas être transformées
  • Les données peuvent être chargées directement dans les applications
Présentation de l’ingénierie des données

Résumé

  • Qu'est-ce qu'un pipeline de données ?
  • À quoi il sert
  • Pourquoi il est important
  • Comment les pipelines de données sont mis en œuvre chez Spotflix
  • Qu'est-ce que l'ETL et quelles sont ses nuances ?
Présentation de l’ingénierie des données

Passons à la pratique !

Présentation de l’ingénierie des données

Preparing Video For Download...