Pipelines de données

Comprendre la science des données

Sara Billen

Curriculum Manager

$$ Data collection and ingestion with one source

Comprendre la science des données

$$ Data collection and ingestion with three source

$$

Et ensuite ?

Plusieurs sources de données :

  • Archives publiques
  • API
  • Bases de données

Différents types de données :

  • Données non structurées
  • Données sous forme de tableau
  • Données en temps réel (tweets)
Comprendre la science des données

Qu'est-ce qu'un pipeline de données ?

  • Déplace les données vers des étapes définies
  • Collecte et stockage automatisés
    • Programmé toutes les heures, tous les jours, toutes les semaines, etc.
    • Déclenché par un événement
  • Surveillé à l'aide d'alertes générées
  • Indispensable pour les projets Big Data
  • Les ingénieurs de données travaillent à la personnalisation des solutions
  • Extraction Transformation Charge (ETL)

Data pipeline

Comprendre la science des données

Étude de cas : maison intelligente

Données Source Fréquence
Conditions météorologiques API du Service météorologique national Toutes les 30 minutes
Tweets dans votre région API Twitter Flux en temps réel
Température intérieure Thermostat intelligent pour la maison Toutes les 5 minutes
État des éclairages Ampoules intelligentes Chaque minute
Statut des verrous Serrures intelligentes Toutes les 15 secondes
Consommation d'énergie Compteur intelligent Hebdomadaire
Comprendre la science des données

Extraction

Extract phase

Source Fréquence
API météo nationale Toutes les 30 minutes
API Twitter Flux en temps réel
Thermostat intelligent pour la maison Toutes les 5 minutes
Ampoules intelligentes Chaque minute
Serrures intelligentes Toutes les 15 secondes
Compteur intelligent Hebdomadaire
Comprendre la science des données

Transformation

Load phase

Comprendre la science des données

Transformation

Avec toutes les données qui arrivent, comment pouvons-nous les organiser et les rendre faciles à utiliser ?

$$ Exemples de transformations :

  • Regroupement de sources de données en un seul ensemble de données
  • Conversion de structures de données pour les adapter aux schémas de bases de données
  • Suppression des données non pertinentes

La préparation et l'exploration des données n'ont pas lieu à ce stade

Comprendre la science des données

Chargement

Load phase

Comprendre la science des données

Automatisation

Automating

Comprendre la science des données

Passons à la pratique !

Comprendre la science des données

Preparing Video For Download...