Datenspeicherung

Datenbankdesign

Lis Sulmont

Curriculum Manager

Daten strukturieren

**1. Strukturierte Daten  

  • Folgt einem Schema
  • Definierte Datentypen und Beziehungen

z. B. SQL, Tabellen in einer relationalen Datenbank

**2. Unstrukturierte Daten  

  • Schemalos
  • Macht den Großteil der Daten auf der Welt aus

z. B. Fotos, Chat-Protokolle, MP3-Dateien

**3. Semi-strukturierte Daten

  • Folgt nicht dem größeren Schema
  • Selbstbeschreibende Struktur

e.g., NoSQL, XML, JSON

# Example of a JSON file
"user": {
     "profile_use_background_image": true, 
     "statuses_count": 31, 
     "profile_background_color": "C0DEED", 
     "followers_count": 3066, 
     ...
Datenbankdesign

Daten strukturieren

Diagramm, das das Spektrum zwischen strukturierten und unstrukturierten Daten zeigt

1 Blume von Sam Oth und Datenbankdiagramm von Nick Jenkins über Wikimedia Commons https://commons.wikimedia.org/wiki/File:Languages_xml.png
Datenbankdesign

Daten über traditionelle Datenbanken hinaus speichern

  • Traditionelle Datenbanken
    • Zum Speichern von relationalen Daten in Echtzeit ⟶ OLTP
  • Data Warehouses **
    • Zur Analyse archivierter strukturierter Daten ⟶ OLAP
  • Data Lakes **
    • Zum Speichern von Daten aller Strukturen = flexibel und skalierbar
    • Für die Analyse von Big Data
Datenbankdesign

Data Warehouses

  • Für Analysen optimiert – OLAP
    • Zum Lesen/Sammeln von Daten organisiert
    • Meistens schreibgeschützt
  • Enthält Daten aus verschiedenen Quellen
  • Massiv-parallele Verarbeitung (MPP)
  • Verwendet normalerweise ein denormalisiertes Schema und dimensionale Modellierung.

Data Marts

  • Teilmenge von Data Warehouses
  • Auf ein bestimmtes Thema ausgerichtet

Amazon Redshift, Google Bog Query und Azure SQL Data Warehouse

Data Mart als Teil eines Data Warehouse

Datenbankdesign

Data Lakes

  • Laden alle Arten von Daten geringeren Kosten:
    • z. B. Rohdaten, Betriebsdatenbanken, IoT-Geräteprotokolle, Echtzeitdaten, relationale und nicht relationale Daten
  • Speichert alle Daten und kann Petabytes aufnehmen
  • Schema beim Lesen im Gegensatz zu Schema beim Schreiben
  • Wenn man Daten nicht katalogisiert, wird es schnell chaotisch.
  • Mach Big-Data-Analysen mit Diensten wie Apache Spark und Hadoop.
    • Nützlich für Deep Learning und Datenermittlung, weil die Aktivitäten so viele Daten brauchen.

Amazon, Google und Microsoft bieten alle Data-Lakes-Lösungen an

Datenbankdesign

ETL

ELT

(85).

Datenbankdesign

Lass uns üben!

Datenbankdesign

Preparing Video For Download...