Pipeline de dados

Introdução à ciência de dados

Sara Billen

Curriculum Manager

() Coleta e ingestão de dados com uma única fonte

Introdução à ciência de dados

() Coleta e ingestão de dados com três fontes

$$

Como podemos dimensionar?

Mais de uma fonte de dados:

  • Registros públicos
  • APIs
  • Bancos de dados

Diferentes tipos de dados:

  • Dados não estruturados
  • Dados tabulares
  • Dados de streaming em tempo real , por exemplo, tweets
Introdução à ciência de dados

O que é um pipeline de dados?

  • Move os dados para estágios definidos
  • Coleta e armazenamento automatizados
    • Programado de hora em hora, diariamente, semanalmente, etc.
    • Acionado por um evento
  • Monitorado com alertas gerados
  • Necessário para projetos de big data
  • Os engenheiros de dados trabalham para personalizar as soluções
  • Extração , transformação e carga(ETL)

Pipeline de dados

Introdução à ciência de dados

Estudo de caso: casa inteligente

Dados Fonte: Frequência
Condições climáticas API do serviço meteorológico nacional A cada 30 minutos
Tweets em sua área API do Twitter Fluxo em tempo real
Temperatura interna Termostato doméstico inteligente A cada 5 minutos
Status das luzes Lâmpadas inteligentes A cada minuto
Status dos bloqueios Travas de portas inteligentes A cada 15 segundos
Consumo de energia Medidor inteligente Semanal
Introdução à ciência de dados

Extrair

Fase de extração

Fonte: Frequência
API de clima nacional A cada 30 minutos
API do Twitter Fluxo em tempo real
Termostato doméstico inteligente A cada 5 minutos
Lâmpadas inteligentes A cada minuto
Travas de portas inteligentes A cada 15 segundos
Medidor inteligente Semanal
Introdução à ciência de dados

Transformar

Fase de carga

Introdução à ciência de dados

Transformar

Com todos os dados que chegam, como podemos mantê-los organizados e fáceis de usar?

() Exemplo de transformações:

  • Unir fontes de dados em um único conjunto de dados
  • Conversão de estruturas de dados para se adequar aos esquemas de banco de dados
  • Remoção de dados irrelevantes

A preparação e a exploração de dados não ocorrem nesse estágio

Introdução à ciência de dados

Carregar

Fase de carga

Introdução à ciência de dados

Automação

Automatização

Introdução à ciência de dados

Vamos praticar!

Introdução à ciência de dados

Preparing Video For Download...