Estruturas de dados

Introdução à Engenharia de Dados

Hadrien Lacroix

Content Developer at DataCamp

Dados estruturados

  • Fáceis de pesquisar e organizar
  • Modelo uniforme, com linhas e colunas
  • Tipos definidos
  • Podem ser agrupados para formar relações
  • Armazenados em bancos de dados relacionais
  • Cerca de 20% dos dados são estruturados
  • São criados e consultados usando SQL
Introdução à Engenharia de Dados

Tabela de funcionários

índice sobrenome nome cargo equipe tempo_integral escritório
0 Thien Vivian Engenheira de dados Ciência de dados 1 Bélgica
1 Huong Julian Cientista de dados Ciência de dados 1 Bélgica
2 Duplantier Norbert Desenvolvedor de software Infraestrutura 1 Reino Unido
3 McColgan Jeff Desenvolvedor de negócios Vendas 1 Estados Unidos
4 Sanchez Rick Representante de suporte Atendimento ao cliente 0 Estados Unidos
Introdução à Engenharia de Dados

Banco de dados relacional

escritório endereço número cidade cep
Bélgica Martelarenlaan 38 Leuven 3010
Reino Unido Old Street 207 Londres EC1V 9NR
EUA 5th Ave 350 Nova York 10118
Introdução à Engenharia de Dados

Banco de dados relacional

índice sobrenome nome escritório endereço número cidade cep
0 Thien Vivian Bélgica Martelarenlaan 38 Leuven 3010
1 Huong Julian Bélgica Martelarenlaan 38 Leuven 3010
2 Duplantier Norbert Reino Unido Old Street 207 Londres EC1V 9NR
3 McColgan Jeff EUA 5th Ave 350 Nova York 10118
4 Sanchez Rick EUA 5th Ave 350 Nova York 10118
Introdução à Engenharia de Dados

Dados semiestruturados

  • Relativamente fáceis de pesquisar e organizar
  • Modelo uniforme, implementação menos rígida: observações diferentes têm tamanhos diferentes
  • Tipos diferentes
  • Podem ser agrupados, mas isso requer mais trabalho
  • Bancos de dados NoSQL: JSON, XML, YAML
Introdução à Engenharia de Dados

Arquivo JSON com os artistas favoritos

{
  {"user_1645156":
     "last_name": "Lacroix",
     "first_name: "Hadrien",
     "favorite_artists": ["Fools in Deed", "Gojira", "Pain", "Nanowar of Steel"]},
  {"user_5913764":
     "last_name": "Billen",
     "first_name: "Sara",
     "favorite_artists": ["Tamino", "Taylor Swift"]},
  {"user_8436791":
     "last_name": "Sulmont",
     "first_name: "Lis",
     "favorite_artists": ["Arctic Monkeys", "Rihanna", "Nina Simone"]},
  ...
}
Introdução à Engenharia de Dados

Dados não estruturados

  • Não seguem um modelo, não cabem em linhas e colunas
  • Difíceis de pesquisar e organizar
  • Geralmente texto, som, imagens ou vídeos
  • Normalmente armazenados em data lakes, podendo aparecer em data warehouses ou bancos de dados
  • A maioria dos dados não é estruturada
  • Podem ser valiosíssimos
Introdução à Engenharia de Dados

letras de música

Introdução à Engenharia de Dados

espectro da música

Introdução à Engenharia de Dados

capa do álbum

Introdução à Engenharia de Dados

vídeo musical

Introdução à Engenharia de Dados

Como acrescentar alguma estrutura

  • Usar a IA para pesquisar e organizar dados não estruturados
  • Acrescentar informações para torná-los semiestruturados
Introdução à Engenharia de Dados

Resumo

  • Dados estruturados
  • Dados semiestruturados
  • Dados não estruturados
  • Diferenças entre os três
  • Exemplos
Introdução à Engenharia de Dados

Vamos praticar!

Introdução à Engenharia de Dados

Preparing Video For Download...