Daten speichern

Datenbankdesign

Lis Sulmont

Curriculum Manager

Daten strukturieren

1. Strukturierte Daten  

  • Folgen einem Schema
  • Definierte Datentypen und Beziehungen

Z. B. SQL, Tabellen in einer relationalen Datenbank

2. Unstrukturierte Daten  

  • Schemalos
  • Machen Großteil der Daten weltweit aus

Z. B. Fotos, Chat-Protokolle, MP3-Dateien

3. Semistrukturierte Daten

  • Folgen keinem übergreifenden Schema
  • Selbstbeschreibende Struktur

Z.B. NoSQL, XML, JSON

# Example of a JSON file
"user": {
     "profile_use_background_image": true, 
     "statuses_count": 31, 
     "profile_background_color": "C0DEED", 
     "followers_count": 3066, 
     ...
Datenbankdesign

Daten strukturieren

Diagram showing the spectrum between structured and unstructured data

1 Blume von Sam Oth und Datenbankdiagramm von Nick Jenkins über Wikimedia Commons https://commons.wikimedia.org/wiki/File:Languages_xml.png
Datenbankdesign

Datenspeicherung über traditionelle Datenbanken hinaus

  • Traditionelle Datenbanken
    • Zum Speichern von relationalen Daten in Echtzeit ⟶ OLTP
  • Data Warehouses
    • Zur Analyse archivierter strukturierter Daten ⟶ OLAP
  • Data Lakes
    • Zum Speichern von Daten aller Strukturen = flexibel und skalierbar
    • Zur Analyse von Big Data
Datenbankdesign

Data Warehouses

  • Für Analytics optimiert – OLAP
    • Zum Lesen/Aggregieren von Daten
    • Meistens nur Lesezugriff
  • Enthält Daten aus verschiedenen Quellen
  • Massive Parallelverarbeitung (MPP)
  • Nutzt denormalisiertes Schema und dimensionale Modellierung

Data Marts

  • Teilbereich von Data Warehouses
  • Auf ein bestimmtes Thema ausgerichtet

Amazon Redshift, Google Bog Query and Azure SQL Data Warehouse

Data mart as a subset of a data warehouse

Datenbankdesign

Data Lakes

  • Speichern alle Arten von Daten zu geringeren Kosten:
    • z. B. Rohdaten, Betriebsdatenbanken, IoT-Geräteprotokolle, Echtzeitdaten, relationale und nicht relationale Daten
  • Speichern alle Daten und umfassen oft Petabytes
  • Schema-on-read im Gegensatz zu Schema-on-write
  • Daten müssen katalogisiert werden, sonst schnell Data Swamp
  • Big-Data-Analytics mit Diensten wie Apache Spark und Hadoop.
    • Nützlich für Deep Learning und Datenermittlung, weil die Aktivitäten so viele Daten brauchen

Amazon, Google and Microsoft all offer Data Lakes solutions

Datenbankdesign

ETL

ELT

Datenbankdesign

Lass uns üben!

Datenbankdesign

Preparing Video For Download...