Datenstrukturen

Grundlagen von Data Engineering

Hadrien Lacroix

Content Developer at DataCamp

Strukturierte Daten

  • Leicht zu durchsuchen und zu organisieren
  • Konsistentes Modell: Zeilen und Spalten
  • Definierte Typen
  • Kann gruppiert werden, um Beziehungen zu bilden
  • In relationalen Datenbanken gespeichert
  • Etwa 20 % der Daten sind strukturiert
  • Mit SQL erstellt und abgefragt
Grundlagen von Data Engineering

Personaltabelle

index last_name first_name role team full_time office
0 Thien Vivian Data Engineer Data Science 1 Belgien
1 Huong Julian Data Scientist Data Science 1 Belgien
2 Duplantier Norbert Software Developer Infrastructure 1 Vereinigtes Königreich
3 McColgan Jeff Business Developer Verkauf 1 Vereinigte Staaten
4 Sanchez Rick Support Agent Customer Service 0 Vereinigte Staaten
Grundlagen von Data Engineering

Relationale Datenbank

office address number city zipcode
Belgien Martelarenlaan 38 Leuven 3010
Vereinigtes Königreich Old Street 207 London EC1V 9NR
USA 5th Ave 350 New York 10118
Grundlagen von Data Engineering

Relationale Datenbank

index last_name first_name office address number city zipcode
0 Thien Vivian Belgien Martelarenlaan 38 Leuven 3010
1 Huong Julian Belgien Martelarenlaan 38 Leuven 3010
2 Duplantier Norbert Vereinigtes Königreich Old Street 207 London EC1V 9NR
3 McColgan Jeff USA 5th Ave 350 New York 10118
4 Sanchez Rick USA 5th Ave 350 New York 10118
Grundlagen von Data Engineering

Semi-strukturierte Daten

  • Relativ einfach zu durchsuchen und zu organisieren
  • Konsistentes Modell, weniger rigide: verschiedene Beobachtungen unterschiedlicher Größen
  • Verschiedene Typen
  • Kann gruppiert werden, ist aber aufwendig
  • NoSQL-Datenbanken JSON, XML, YAML
Grundlagen von Data Engineering

JSON-Datei für Lieblings-Artists

{
  {"user_1645156":
     "last_name": "Lacroix",
     "first_name: "Hadrien",
     "favorite_artists": ["Fools in Deed", "Gojira", "Pain", "Nanowar of Steel"]},
  {"user_5913764":
     "last_name": "Billen",
     "first_name: "Sara",
     "favorite_artists": ["Tamino", "Taylor Swift"]},
  {"user_8436791":
     "last_name": "Sulmont",
     "first_name: "Lis",
     "favorite_artists": ["Arctic Monkeys", "Rihanna", "Nina Simone"]},
  ...
}
Grundlagen von Data Engineering

Unstrukturierte Daten

  • Folgen keinem Modell, können nicht in Zeilen und Spalten enthalten sein
  • Schwer zu durchsuchen und zu organisieren
  • In der Regel Text, Ton, Bilder oder Videos
  • Normalerweise in Data Lakes, aber auch in Data Warehouses oder Datenbanken möglich
  • Die meisten Daten sind unstrukturiert
  • Können extrem wertvoll sein
Grundlagen von Data Engineering

Liedtext

Grundlagen von Data Engineering

Liedspektrum

Grundlagen von Data Engineering

Albumcover

Grundlagen von Data Engineering

Musikvideo

Grundlagen von Data Engineering

Mehr Struktur erzielen

  • Mit KI unstrukturierte Daten suchen und organisieren
  • Informationen hinzufügen, um semi-strukturierte Daten zu erhalten
Grundlagen von Data Engineering

Zusammenfassung

  • Strukturierte Daten
  • Semi-strukturierte Daten
  • Unstrukturierte Daten
  • Die Unterschiede zwischen ihnen
  • Beispiele
Grundlagen von Data Engineering

Lass uns üben!

Grundlagen von Data Engineering

Preparing Video For Download...