Extracción de datos no tabulares

ETL y ELT en Python

Jake Roach

Data Engineer

Extracción de datos no tabulares

Canal ETL con el componente de extracción resaltado.

ETL y ELT en Python

Tipos de datos no tabulares

La mayoría de los datos son no estructurados

  • Texto
  • Audio
  • Imagen
  • Video
  • Espaciales
  • IoT

Fuentes de datos no estructurados en transformación.

1 https://mitsloan.mit.edu/ideas-made-to-matter/tapping-power-unstructured-data
ETL y ELT en Python

Trabajar con APIs y datos JSON

API (Application Programming Interface)

  • Software que se sitúa sobre fuentes de datos
  • Evita la interacción directa con la base de datos

$$

Ingeniera/o de datos usando una API para interactuar con una base de datos.

JSON (JavaScript Object Notation)

  • Pares clave-valor
  • Sin esquema fijo
  • Similar en aspecto a dictionarios
{
    "key": "value",
    ...
    "open": 0.121875
}
ETL y ELT en Python

Leer archivos JSON con pandas

{
    "timestamps": [863703000, 863789400, ...],
    "open": [0.121875, 0.098438, ...],
    "close": [...],
    "volume": [...]
}

Usa la función .read_json()

# Read in a JSON file in the format above
raw_stock_data = pd.read_json("raw_stock_data.json", orient="columns")
1 https://pandas.pydata.org/docs/reference/api/pandas.read_json.html
ETL y ELT en Python

JSON anidado o no estructurado

Los datos no siempre están listos para DataFrame

  • Objetos anidados
  • "Esquema" variable
{
    "863703000": {
        "volume": 1443120000,
        "price": {
            "close": 0.09791,
            "open": 0.12187
        }
    }, 
    "863789400": {
        ...
    }, ...
}
ETL y ELT en Python

Leer JSON con json

import json

with open("raw_stock_data.json", "r") as file:
    # Load the file into a dictionary
    raw_stock_data = json.load(file)

# Confirm the type of the raw_stock_data variable
print(type(raw_stock_data))
<class 'dict'>
ETL y ELT en Python

¡Vamos a practicar!

ETL y ELT en Python

Preparing Video For Download...