Armazenamento de dados

Projeto de banco de dados

Lis Sulmont

Curriculum Manager

Organizando os dados

**1. Dados estruturados  

  • Segue um esquema
  • Tipos de dados e relações definidos

Por exemplo, SQL, tabelas em um banco de dados relacional.

**2. Dados não estruturados  

  • Sem esquema
  • É a maior parte dos dados do mundo

por exemplo, fotos, registros de bate-papo, MP3

**3. Dados semiestruturados

  • Não segue o esquema maior
  • Estrutura autodescritiva

e.g., NoSQL, XML, JSON

# Example of a JSON file
"user": {
     "profile_use_background_image": true, 
     "statuses_count": 31, 
     "profile_background_color": "C0DEED", 
     "followers_count": 3066, 
     ...
Projeto de banco de dados

Organizando os dados

Diagrama mostrando o espectro entre dados estruturados e não estruturados

1 Flor por Sam Oth e Diagrama de Banco de Dados por Nick Jenkins via Wikimedia Commons https://commons.wikimedia.org/wiki/File:Languages_xml.png
Projeto de banco de dados

Armazenando dados além dos bancos de dados tradicionais

  • Bancos de dados tradicionais
    • Para armazenar dados estruturados relacionais em tempo real ⟶ OLTP
  • Data warehouses **
    • Para analisar dados estruturados arquivados ⟶ OLAP
  • Data lakes **
    • Para guardar dados de todas as estruturas = flexibilidade e escalabilidade
    • Para analisar grandes volumes de dados
Projeto de banco de dados

Data warehouses

  • Otimizado para análise - OLAP
    • Organizado para ler/agregar dados
    • Normalmente só para leitura
  • Tem dados de várias fontes
  • Processamento Paralelo Massivo (MPP)
  • Normalmente usa um esquema desnormalizado e modelagem dimensional.

Data marts

  • Subconjunto de armazéns de dados
  • Dedicado a um tema específico

Amazon Redshift, Google Bog Query e Azure SQL Data Warehouse

Data mart como um subconjunto de um warehouse

Projeto de banco de dados

Data lakes

  • Loja todos tipos de dados a um custo menor:
    • Por exemplo, bancos de dados operacionais brutos, registros de dispositivos IoT, em tempo real, relacionais e não relacionais.
  • Guarda todos os dados e pode armazenar petabytes
  • Esquema na leitura em oposição ao esquema na gravação
  • A necessidade de catalogar os dados, caso contrário, transforma-se num pântano de dados.
  • Faça análises de big data usando serviços como Apache Spark e Hadoop.
    • É útil para o aprendizado profundo e a descoberta de dados, porque as atividades exigem muitos dados.

A Amazon, o Google e a Microsoft oferecem soluções de Data Lakes.

Projeto de banco de dados

ETL

ELT

Projeto de banco de dados

Vamos praticar!

Projeto de banco de dados

Preparing Video For Download...