Processamento de dados

Introdução à Engenharia de Dados

Hadrien Lacroix

Content Developer at DataCamp

pipeline de dados

Introdução à Engenharia de Dados

movimentação de dados para o data lake

Introdução à Engenharia de Dados

movimentação de dados para o data lake

Introdução à Engenharia de Dados

verificação de dados corrompidos

Introdução à Engenharia de Dados

Uma definição geral

  • Processamento de dados: conversão de dados brutos em informações proveitosas
Introdução à Engenharia de Dados

Valor do processamento de dados

Conceitualmente

  • Remover dados indesejados
  • Otimizar os custos de memória, processos e rede
  • Converter dados de um tipo para outro

Na Spotflix

  • Não há necessidade de testar dados de recursos em longo prazo
  • Não é viável armazenar e transmitir arquivos tão grandes
Introdução à Engenharia de Dados

pipeline de dados

Introdução à Engenharia de Dados

pipeline de dados

Introdução à Engenharia de Dados

pipeline de dados

Introdução à Engenharia de Dados

Valor do processamento de dados

Conceitualmente

  • Remover dados indesejados
  • Economizar memória
  • Converter dados de um tipo para outro
  • Organizar dados
  • Seguir um esquema/estrutura
  • Aumentar a produtividade

Na Spotflix

  • Não há necessidade de formato sem perdas
  • Não é viável armazenar arquivos tão grandes
  • Converter músicas de .flac para .ogg
  • Reorganizar os dados do data lake para data warehouses
  • Exemplo de tabela de funcionários
  • Viabilizar o trabalho dos cientistas de dados
Introdução à Engenharia de Dados

Como os engenheiros de dados processam os dados

  • Tarefas de manipulação, limpeza e organização dos dados
    • que possam ser automatizadas
    • que sempre precisarão ser feitas
  • Armazenam dados em um banco de dados estruturado de forma sensata
  • Criam exibições com base nas tabelas do banco de dados
  • Otimizam o desempenho do banco de dados
  • Rejeitam arquivos de música corrompidos
  • Decidem o que acontece com metadados faltantes
  • Separam as tabelas de artistas e álbuns...
  • ...mas disponibilizam a visualização combinando-as
  • Fazem a indexação
Introdução à Engenharia de Dados

1 A diferença entre lote e fluxo será explicada na próxima lição!
Introdução à Engenharia de Dados

Logotipo do Apache Spark

Introdução à Engenharia de Dados

Resumo

  • O que é processamento de dados
  • Por que é necessário
  • Em que consiste
  • Como processamos os dados na Spotflix
Introdução à Engenharia de Dados

Vamos praticar!

Introdução à Engenharia de Dados

Preparing Video For Download...