Transformar datos no tabulares

ETL y ELT en Python

Jake Roach

Data Engineer

Transformar datos no tabulares

Canal ETL con el componente de transformación resaltado.

ETL y ELT en Python

Almacenar datos en diccionarios

JSON anidado

{
    "863703000": {
        "price": {
            "open": 0.12187,
            "close": 0.09791
        },
        "volume": 1443120000
    }, 
    "863789400": {
    }, ...
}

Objetivo:

  • Convertir el diccionario a un formato listo para DataFrame

$$

[
    [863703000, 0.12187, 0.09791, 1443120000],
    [863789400, 0.09843, ...]
]
ETL y ELT en Python

Iterar sobre componentes de un diccionario

# Loop over keys
for key in raw_data.keys():
    ...
# Loop over values
for value in raw_data.values():
    ...
# Loop over keys and values
for key, value in raw_data.items():
    ...

.keys()

  • Crea una lista de claves del diccionario

.values()

  • Crea una lista de valores del diccionario

.items()

  • Genera una lista de tuplas con pares clave-valor
ETL y ELT en Python

Analizar datos de diccionarios

entry = {
    "volume": 1443120000,
    "price": {
        "open": 0.12187,
        "close": 0.09791,
    }
}
# Parse data from dictionary using .get()
volume = entry.get("volume")
ticker = entry.get("ticker", "DCMP")
# Call .get() twice to return the nested "open" value
open_price = entry.get("price").get("open", 0)
ETL y ELT en Python

Crear un DataFrame desde una lista de listas

Pasa una lista de listas a pd.DataFrame()

# Pass a list of lists to pd.DataFrame
raw_data = pd.DataFrame(flattened_rows)

Define cabeceras con .columns

# Create columns
raw_data.columns = ["timestamps", "open", "close", "volume"]

Define un índice con .set_index()

# Set the index column to be "timestamps"
raw_data.set_index("timestamps")
ETL y ELT en Python

Transformar datos bursátiles

parsed_stock_data = []

# Loop through each key-value pair of the raw_stock_data dictionary
for timestamp, ticker_info in raw_stock_data.items():
    parsed_stock_data.append([
        timestamp,
        ticker_info.get("price", {}).get("open", 0),  # Parse the opening price
        ticker_info.get("price", {}).get("close", 0),  # Parse the closing price
        ticker_info.get("volume", 0)  # Parse the volume
    ])
# Create a DataFrame, assign column names, and set an index
transformed_stock_data = pd.DataFrame(parsed_stock_data)
transformed_stock_data.columns = ["timestamps", "open", "close", "volume"]
transformed_stock_data = transformed_stock_data.set_index("timestamps")
ETL y ELT en Python

¡Vamos a practicar!

ETL y ELT en Python

Preparing Video For Download...