Daten speichern

Datenbankdesign

Lis Sulmont

Curriculum Manager

Daten strukturieren

1. Strukturierte Daten

Folgen einem Schema
Definierte Datentypen und Beziehungen

Z. B. SQL, Tabellen in einer relationalen Datenbank

2. Unstrukturierte Daten

Schemalos
Machen Großteil der Daten weltweit aus

Z. B. Fotos, Chat-Protokolle, MP3-Dateien

3. Semistrukturierte Daten

Folgen keinem übergreifenden Schema
Selbstbeschreibende Struktur

Z.B. NoSQL, XML, JSON

# Example of a JSON file
"user": {
     "profile_use_background_image": true, 
     "statuses_count": 31, 
     "profile_background_color": "C0DEED", 
     "followers_count": 3066, 
     ...

Daten strukturieren

Diagram showing the spectrum between structured and unstructured data

¹ Blume von Sam Oth und Datenbankdiagramm von Nick Jenkins über Wikimedia Commons https://commons.wikimedia.org/wiki/File:Languages_xml.png

Datenspeicherung über traditionelle Datenbanken hinaus

Traditionelle Datenbanken
- Zum Speichern von relationalen Daten in Echtzeit ⟶ OLTP
Data Warehouses
- Zur Analyse archivierter strukturierter Daten ⟶ OLAP
Data Lakes
- Zum Speichern von Daten aller Strukturen = flexibel und skalierbar
- Zur Analyse von Big Data

Data Warehouses

Für Analytics optimiert – OLAP
- Zum Lesen/Aggregieren von Daten
- Meistens nur Lesezugriff
Enthält Daten aus verschiedenen Quellen
Massive Parallelverarbeitung (MPP)
Nutzt denormalisiertes Schema und dimensionale Modellierung

Data Marts

Teilbereich von Data Warehouses
Auf ein bestimmtes Thema ausgerichtet

Amazon Redshift, Google Bog Query and Azure SQL Data Warehouse

Data mart as a subset of a data warehouse

Data Lakes

Speichern alle Arten von Daten zu geringeren Kosten:
- z. B. Rohdaten, Betriebsdatenbanken, IoT-Geräteprotokolle, Echtzeitdaten, relationale und nicht relationale Daten
Speichern alle Daten und umfassen oft Petabytes
Schema-on-read im Gegensatz zu Schema-on-write
Daten müssen katalogisiert werden, sonst schnell Data Swamp
Big-Data-Analytics mit Diensten wie Apache Spark und Hadoop.
- Nützlich für Deep Learning und Datenermittlung, weil die Aktivitäten so viele Daten brauchen

Daten speichern

Daten strukturieren

Daten strukturieren

Datenspeicherung über traditionelle Datenbanken hinaus

Data Warehouses

Data Lakes

ETL

ELT

Lass uns üben!