Almacenamiento de datos

Diseño de bases de datos

Lis Sulmont

Curriculum Manager

Estructuración de datos

1. Datos estructurados  

  • Sigue un esquema
  • Tipos de datos definidos y relaciones

Por ejemplo, SQL, tablas en una base de datos relacional.

**2. Datos no estructurados  

  • Sin esquema
  • Constituyen la mayor parte de los datos del mundo.

Por ejemplo, fotos, registros de chat, MP3.

**3. Datos semiestructurados

  • No siguen un esquema más amplio.
  • Estructura autodescriptiva

e.g., NoSQL, XML, JSON

# Example of a JSON file
"user": {
     "profile_use_background_image": true, 
     "statuses_count": 31, 
     "profile_background_color": "C0DEED", 
     "followers_count": 3066, 
     ...
Diseño de bases de datos

Estructuración de datos

Diagrama que muestra el espectro entre datos estructurados y no estructurados.

1 Flor, por Sam Oth, y diagrama de base de datos, por Nick Jenkins, a través de Wikimedia Commons. https://commons.wikimedia.org/wiki/File:Languages_xml.png
Diseño de bases de datos

Almacenamiento de datos más allá de las bases de datos tradicionales

  • Bases de datos tradicionales
    • Para almacenar datos estructurados relacionales en tiempo real ⟶ OLTP
  • Almacenes de datos
    • Para analizar datos estructurados archivados ⟶ OLAP
  • Lagos de datos
    • Para almacenar datos de todas las estructuras = flexibilidad y escalabilidad
    • Para analizar macrodatos
Diseño de bases de datos

Almacenes de datos

  • Optimizado para análisis: OLAP
    • Organizado para leer/agregar datos
    • Normalmente de solo lectura
  • Contiene datos de múltiples fuentes.
  • Procesamiento masivamente paralelo (MPP)
  • Normalmente utiliza un esquema desnormalizado y modelado dimensional.

Mercados de datos

  • Subconjunto de almacenes de datos
  • Dedicado a un tema específico

Amazon Redshift, Google Bog Query y Azure SQL Data Warehouse

Mercado de datos como subconjunto de un almacén de datos

Diseño de bases de datos

Lagos de datos

  • Guardan todo tipos de datos a un menor costo:
    • Por ejemplo, bases de datos operativas sin procesar, registros de dispositivos IoT, en tiempo real, relacionales y no relacionales.
  • Conserva todos los datos y puede almacenar petabytes.
  • Esquema en lectura frente a esquema en escritura.
  • La necesidad de catalogar los datos se convierte en un pantano de datos.
  • Ejecuta análisis de macrodatos utilizando servicios como Apache Spark y Hadoop.
    • Útil para el aprendizaje profundo y el descubrimiento de datos, ya que las actividades requieren una gran cantidad de datos.

Amazon, Google y Microsoft ofrecen soluciones de lagos de datos

Diseño de bases de datos

ETL

ELT

Diseño de bases de datos

¡Vamos a practicar!

Diseño de bases de datos

Preparing Video For Download...