Memorizzazione dei dati

Progettazione di database

Lis Sulmont

Curriculum Manager

Strutturare i dati

**1. Dati strutturati  

  • Segue uno schema
  • Tipi di dati e relazioni definiti

_ad esempio, SQL, tabelle in un database relazionale _

**2. Dati non strutturati  

  • Senza schema
  • Costituisce la maggior parte dei dati nel mondo

ad esempio foto, chat, MP3

3. Dati semi-strutturati

  • Non segue uno schema più ampio
  • Struttura che si spiega da sola

e.g., NoSQL, XML, JSON

# Example of a JSON file
"user": {
     "profile_use_background_image": true, 
     "statuses_count": 31, 
     "profile_background_color": "C0DEED", 
     "followers_count": 3066, 
     ...
Progettazione di database

Strutturare i dati

Diagramma che mostra lo spettro tra dati strutturati e non strutturati

1 Fiore di Sam Oth e diagramma del database di Nick Jenkins tramite Wikimedia Commons https://commons.wikimedia.org/wiki/File:Languages_xml.png
Progettazione di database

Archiviazione dei dati oltre i database tradizionali

  • Database tradizionali
    • Per archiviare dati strutturati relazionali in tempo reale ⟶ OLTP
  • Magazzini di dati
    • Per analizzare dati strutturati archiviati ⟶ OLAP
  • Laghi di dati
    • Per archiviare i dati di tutte le strutture = flessibilità e scalabilità
    • Per analizzare grandi quantità di dati
Progettazione di database

Magazzini di dati

  • Ottimizzato per l'analisi - OLAP
    • Organizzato per leggere/raccogliere dati
    • Di solito solo in lettura
  • Contiene dati da diverse fonti
  • Elaborazione massivamente parallela (MPP)
  • Di solito usa uno schema denormalizzato e una modellazione dimensionale.

Magazzini di dati

  • Sottoinsieme di data warehouse
  • Dedicato a un argomento specifico

Amazon Redshift, Google Bog Query e Azure SQL Data Warehouse

Data mart come sottoinsieme di un data warehouse

Progettazione di database

Laghi di dati

  • Negozio tutti i tipi di dati a un costo inferiore:
    • ad esempio, database operativi grezzi, registri dei dispositivi IoT, dati in tempo reale, relazionali e non relazionali
  • Conserva tutti i dati e può arrivare a contenere petabyte
  • Schema-on-read contro schema-on-write
  • Altrimenti, catalogare i dati diventa un casino.
  • Fai analisi dei big data usando servizi come Apache Spark e Hadoop.
    • Utile per l'apprendimento approfondito e la scoperta dei dati perché le attività richiedono un sacco di dati.

Amazon, Google e Microsoft offrono tutti soluzioni per i Data Lake

Progettazione di database

ETL

ELT

Progettazione di database

Passiamo alla pratica!

Progettazione di database

Preparing Video For Download...