Structures de données

Présentation de l’ingénierie des données

Hadrien Lacroix

Content Developer at DataCamp

Données structurées

  • Faciles à rechercher et à organiser
  • Modèle cohérent, lignes et colonnes
  • Types définis
  • Peuvent être regroupées pour former des relations
  • Stockées dans des bases de données relationnelles
  • Environ 20 % des données sont structurées
  • Créé et interrogé à l'aide de SQL
Présentation de l’ingénierie des données

Table des employés

index last_name first_name role team full_time office
0 Thien Vivian Ingénieur de données Data Science 1 Belgique
1 Huong Julian Data Scientist Data Science 1 Belgique
2 Duplantier Norbert Software Developer Infrastructure 1 Royaume-Uni
3 McColgan Jeff Business Developer Sales 1 États-Unis
4 Sanchez Rick Support Agent Customer Service 0 États-Unis
Présentation de l’ingénierie des données

Base de données relationnelle

office adresse numéro ville code postal
Belgique Martelarenlaan 38 Louvain 3010
Royaume-Uni Old Street 207 Londres EC1V 9NR
États-Unis 5th Ave 350 New York 10118
Présentation de l’ingénierie des données

Base de données relationnelle

index last_name first_name office adresse numéro ville code postal
0 Thien Vivian Belgique Martelarenlaan 38 Louvain 3010
1 Huong Julian Belgique Martelarenlaan 38 Louvain 3010
2 Duplantier Norbert Royaume-Uni Old Street 207 Londres EC1V 9NR
3 McColgan Jeff États-Unis 5th Ave 350 New York 10118
4 Sanchez Rick États-Unis 5th Ave 350 New York 10118
Présentation de l’ingénierie des données

Données semi-structurées

  • Relativement facile à rechercher et à organiser
  • Modèle cohérent, mise en œuvre moins rigide : des observations différentes ont des tailles différentes
  • Différents types
  • Peut être regroupé, mais nécessite plus de travail
  • Bases de données NoSQL : JSON, XML, YAML
Présentation de l’ingénierie des données

Fichier JSON des artistes favoris

{
  {"user_1645156":
     "last_name": "Lacroix",
     "first_name: "Hadrien",
     "favorite_artists": ["Fools in Deed", "Gojira", "Pain", "Nanowar of Steel"]},
  {"user_5913764":
     "last_name": "Billen",
     "first_name: "Sara",
     "favorite_artists": ["Tamino", "Taylor Swift"]},
  {"user_8436791":
     "last_name": "Sulmont",
     "first_name: "Lis",
     "favorite_artists": ["Arctic Monkeys", "Rihanna", "Nina Simone"]},
  ...
}
Présentation de l’ingénierie des données

Données non structurées

  • Ne suit pas un modèle, ne peut pas être contenu dans des lignes et des colonnes
  • Difficiles à rechercher et à organiser
  • Généralement du texte, du son, des images ou des vidéos
  • Généralement stockés dans des lacs de données, ils peuvent apparaître dans des entrepôts de données ou des bases de données
  • La plupart des données ne sont pas structurées
  • Peut être extrêmement précieux
Présentation de l’ingénierie des données

lyrics

Présentation de l’ingénierie des données

song spectrum

Présentation de l’ingénierie des données

album cover

Présentation de l’ingénierie des données

music video

Présentation de l’ingénierie des données

Ajouter une structure

  • Utiliser l'IA pour rechercher et organiser des données non structurées
  • Ajouter des informations pour le rendre semi-structuré
Présentation de l’ingénierie des données

Résumé

  • Données structurées
  • Données semi-structurées
  • Données non structurées
  • Différences entre les trois
  • Donnez des exemples
Présentation de l’ingénierie des données

Passons à la pratique !

Présentation de l’ingénierie des données

Preparing Video For Download...