Datastructuren

Data Engineering begrijpen

Hadrien Lacroix

Content Developer at DataCamp

Gestructureerde data

  • Makkelijk te doorzoeken en te organiseren
  • Consistent model: rijen en kolommen
  • Gedefinieerde types
  • Te groeperen tot relaties
  • Opgeslagen in relationele databases
  • Ongeveer 20% van de data is gestructureerd
  • Gemaakt en bevraagd met SQL
Data Engineering begrijpen

Werknemerstabel

index last_name first_name role team full_time office
0 Thien Vivian Data Engineer Data Science 1 Belgium
1 Huong Julian Data Scientist Data Science 1 Belgium
2 Duplantier Norbert Software Developer Infrastructure 1 United Kingdom
3 McColgan Jeff Business Developer Sales 1 United States
4 Sanchez Rick Support Agent Customer Service 0 United States
Data Engineering begrijpen

Relationele database

office address number city zipcode
Belgium Martelarenlaan 38 Leuven 3010
UK Old Street 207 London EC1V 9NR
USA 5th Ave 350 New York 10118
Data Engineering begrijpen

Relationele database

index last_name first_name office address number city zipcode
0 Thien Vivian Belgium Martelarenlaan 38 Leuven 3010
1 Huong Julian Belgium Martelarenlaan 38 Leuven 3010
2 Duplantier Norbert UK Old Street 207 London EC1V 9NR
3 McColgan Jeff USA 5th Ave 350 New York 10118
4 Sanchez Rick USA 5th Ave 350 New York 10118
Data Engineering begrijpen

Semi-gestructureerde data

  • Relatief makkelijk te doorzoeken en te organiseren
  • Consistent model, minder rigide: observaties hebben verschillende groottes
  • Verschillende types
  • Te groeperen, maar kost meer werk
  • NoSQL-databases: JSON, XML, YAML
Data Engineering begrijpen

JSON-bestand met favoriete artiesten

{
  {"user_1645156":
     "last_name": "Lacroix",
     "first_name: "Hadrien",
     "favorite_artists": ["Fools in Deed", "Gojira", "Pain", "Nanowar of Steel"]},
  {"user_5913764":
     "last_name": "Billen",
     "first_name: "Sara",
     "favorite_artists": ["Tamino", "Taylor Swift"]},
  {"user_8436791":
     "last_name": "Sulmont",
     "first_name: "Lis",
     "favorite_artists": ["Arctic Monkeys", "Rihanna", "Nina Simone"]},
  ...
}
Data Engineering begrijpen

Ongestructureerde data

  • Volgt geen model, past niet in rijen en kolommen
  • Moeilijk te doorzoeken en te organiseren
  • Meestal tekst, geluid, afbeeldingen of video
  • Meestal in data lakes; kan ook in datawarehouses of databases
  • Het meeste is ongestructureerd
  • Kan extreem waardevol zijn
Data Engineering begrijpen

songtekst

Data Engineering begrijpen

songspectrum

Data Engineering begrijpen

albumhoes

Data Engineering begrijpen

muziekvideo

Data Engineering begrijpen

Beetje structuur toevoegen

  • Gebruik AI om ongestructureerde data te doorzoeken en te organiseren
  • Voeg info toe om het semi-gestructureerd te maken
Data Engineering begrijpen

Samenvatting

  • Gestructureerde data
  • Semi-gestructureerde data
  • Ongestructureerde data
  • Verschillen tussen de drie
  • Geef voorbeelden
Data Engineering begrijpen

Laten we oefenen!

Data Engineering begrijpen

Preparing Video For Download...