Pipelines de datos

Comprender la ciencia de datos

Sara Billen

Curriculum Manager

$$ Recogida e ingestión de datos con una sola fuente

Comprender la ciencia de datos

$$ Recogida e ingestión de datos con tres fuentes

$$

¿Cómo escalamos?

Más de una fuente de datos:

  • Registros públicos
  • APIs
  • Bases de datos

Diferentes tipos de datos:

  • Datos no estructurados
  • Datos tabulares
  • Flujo de datos en tiempo real , por ejemplo, tweets
Comprender la ciencia de datos

¿Qué es una canalización de datos?

  • Mueve los datos a etapas definidas
  • Recogida y almacenamiento automatizados
    • Programado por horas, días, semanas, etc.
    • Activado por un evento
  • Supervisado con alertas generadas
  • Necesario para proyectos de big data
  • Los ingenieros de datos trabajan para personalizar las soluciones
  • Extraer, transformar, cargar

Canalización de datos

Comprender la ciencia de datos

Estudio de caso: hogar inteligente

Datos Fuente: Frecuencia
Condiciones meteorológicas Servicio Meteorológico Nacional API Cada 30 minutos
Tweets en tu zona Twitter API Transmisión en tiempo real
Temperatura interior Termostato doméstico inteligente Cada 5 minutos
Estado de las luces Bombillas inteligentes Cada minuto
Estado de las cerraduras Cerraduras de puerta inteligentes Cada 15 segundos
Consumo de energía Contador inteligente Semanalmente
Comprender la ciencia de datos

Extraer

Fase de extracción

Fuente: Frecuencia
Meteorología Nacional API Cada 30 minutos
Twitter API Transmisión en tiempo real
Termostato doméstico inteligente Cada 5 minutos
Bombillas inteligentes Cada minuto
Cerraduras de puerta inteligentes Cada 15 segundos
Contador inteligente Semanalmente
Comprender la ciencia de datos

Transformar

Fase de carga

Comprender la ciencia de datos

Transformar

Con todos los datos que llegan, ¿cómo los mantenemos organizados y fáciles de usar?

$$ Ejemplo de transformaciones:

  • Unir fuentes de datos en un conjunto de datos
  • Convertir estructuras de datos para adaptarlas a los esquemas de las bases de datos
  • Eliminar datos irrelevantes

La preparación y exploración de datos no se produce en esta fase

Comprender la ciencia de datos

Cargar

Fase de carga

Comprender la ciencia de datos

Automatización

Automatizando

Comprender la ciencia de datos

¡Vamos a practicar!

Comprender la ciencia de datos

Preparing Video For Download...