Tratamiento de datos

Comprender la ingeniería de datos

Hadrien Lacroix

Content Developer at DataCamp

canalización de datos

Comprender la ingeniería de datos

trasladar datos al lago de datos

Comprender la ingeniería de datos

trasladar datos al lago de datos

Comprender la ingeniería de datos

comprobación de datos corruptos

Comprender la ingeniería de datos

Una definición general

  • El procesamiento de datos consiste en convertir los datos brutos en información significativa.
Comprender la ingeniería de datos

Valor del procesamiento de datos

Conceptualmente

  • Eliminar datos no deseados.
  • Optimizar los costes de memoria, proceso y red.
  • Convertir datos de un tipo a otro.

En Spotflix

  • No hay necesidad a largo plazo de probar datos de características.
  • No puedes permitirte almacenar y transmitir archivos tan grandes.
Comprender la ingeniería de datos

canalización de datos

Comprender la ingeniería de datos

canalización de datos

Comprender la ingeniería de datos

canalización de datos

Comprender la ingeniería de datos

Valor del procesamiento de datos

Conceptualmente

  • Eliminar datos no deseados
  • Ahorrar memoria
  • Convertir datos de un tipo a otro
  • Organizar los datos
  • Encajar en un esquema/estructura
  • Aumentar la productividad

En Spotflix

  • No es necesario el formato sin pérdidas
  • No se pueden almacenar archivos tan grandes
  • Convertir canciones de .flac a .ogg
  • Reorganizar los datos del lago de datos a los almacenes de datos
  • Ejemplo de tabla de empleados
  • Habilitar a los científicos de datos
Comprender la ingeniería de datos

Cómo procesan los datos los ingenieros de datos

  • Tareas de manipulación, limpieza y ordenación de datos
    • que pueden automatizarse
    • que siempre habrá que hacer
  • Almacenar los datos en una base de datos sanamente estructurada
  • Crear vistas sobre las tablas de la base de datos
  • Optimizar el rendimiento de la base de datos
  • Rechazar archivos de canciones corruptos
  • Decidir qué ocurre con los metadatos que faltan
  • Tablas separadas de artistas y álbumes...
  • ...pero generan visualizaciones combinándolas
  • Indexación
Comprender la ingeniería de datos

1 La diferencia entre lote (batch) y flujo (stream) se explicará en la próxima lección.
Comprender la ingeniería de datos

Logotipo de Apache Spark

Comprender la ingeniería de datos

Resumen

  • Qué es el tratamiento de datos
  • Por qué es necesario
  • En qué consiste
  • Cómo procesamos los datos en Spotflix
Comprender la ingeniería de datos

¡Vamos a practicar!

Comprender la ingeniería de datos

Preparing Video For Download...