Estructuras de datos

Comprender la ingeniería de datos

Hadrien Lacroix

Content Developer at DataCamp

Datos estructurados

  • Fáciles de buscar y organizar
  • Modelo coherente, filas y columnas
  • Tipos definidos
  • Se pueden agrupar para formar relaciones
  • Se almacenan en bases de datos relacionales
  • Alrededor del 20 % de los datos son estructurados
  • Se crean y consultan mediante SQL
Comprender la ingeniería de datos

Tabla de empleados

index last_name first_name role team full_time office
0 Thien Vivian Data Engineer Ciencia de datos 1 Belgium
1 Huong Julian Data Scientist Ciencia de datos 1 Belgium
2 Duplantier Norbert Software Developer Infrastructure 1 United Kingdom
3 McColgan Jeff Business Developer Sales 1 United States
4 Sanchez Rick Support Agent Customer Service 0 United States
Comprender la ingeniería de datos

Base de datos relacional

office address number city zipcode
Belgium Martelarenlaan 38 Leuven 3010
UK Old Street 207 London EC1V 9NR
USA 5th Ave 350 New York 10118
Comprender la ingeniería de datos

Base de datos relacional

index last_name first_name office address number city zipcode
0 Thien Vivian Belgium Martelarenlaan 38 Leuven 3010
1 Huong Julian Belgium Martelarenlaan 38 Leuven 3010
2 Duplantier Norbert UK Old Street 207 London EC1V 9NR
3 McColgan Jeff USA 5th Ave 350 New York 10118
4 Sanchez Rick USA 5th Ave 350 New York 10118
Comprender la ingeniería de datos

Datos semiestructurados

  • Relativamente fácil de buscar y organizar
  • Modelo coherente, aplicación menos rígida: las distintas observaciones tienen distintos tamaños
  • Diferentes tipos
  • Se puede agrupar, pero necesita más trabajo
  • Bases de datos NoSQL: JSON, XML, YAML
Comprender la ingeniería de datos

Archivo JSON de artistas favoritos

{
  {"user_1645156":
     "last_name": "Lacroix",
     "first_name: "Hadrien",
     "favorite_artists": ["Fools in Deed", "Gojira", "Pain", "Nanowar of Steel"]},
  {"user_5913764":
     "last_name": "Billen",
     "first_name: "Sara",
     "favorite_artists": ["Tamino", "Taylor Swift"]},
  {"user_8436791":
     "last_name": "Sulmont",
     "first_name: "Lis",
     "favorite_artists": ["Arctic Monkeys", "Rihanna", "Nina Simone"]},
  ...
}
Comprender la ingeniería de datos

Datos no estructurados

  • No sigue un modelo, no puede estar contenido en filas y columnas
  • Difíciles de buscar y organizar
  • Normalmente texto, sonido, imágenes o vídeos
  • Normalmente almacenados en lagos de datos, pueden aparecer en almacenes de datos o bases de datos
  • La mayoría de los datos no están estructurados
  • Puede ser muy valioso
Comprender la ingeniería de datos

letra

Comprender la ingeniería de datos

espectro de la canción

Comprender la ingeniería de datos

portada del álbum

Comprender la ingeniería de datos

vídeo musical

Comprender la ingeniería de datos

Añadir algo de estructura

  • Utiliza la IA para buscar y organizar datos no estructurados
  • Añade información para hacerlo semiestructurado
Comprender la ingeniería de datos

Resumen

  • Datos estructurados
  • Datos semiestructurados
  • Datos no estructurados
  • Diferencias entre los tres
  • Pon ejemplos
Comprender la ingeniería de datos

¡Vamos a practicar!

Comprender la ingeniería de datos

Preparing Video For Download...