Nicht-tabellarische Daten transformieren

ETL und ELT mit Python

Jake Roach

Data Engineer

Nicht-tabellarische Daten transformieren

ETL-Pipeline mit hervorgehobener Transformationskomponente.

ETL und ELT mit Python

Daten in Dictionaries speichern

Verschachteltes JSON

{
    "863703000": {
        "price": {
            "open": 0.12187,
            "close": 0.09791
        },
        "volume": 1443120000
    }, 
    "863789400": {
    }, ...
}

Ziel:

  • Wörterbuch in ein DataFrame-taugliches Format umwandeln

$$

[
    [863703000, 0.12187, 0.09791, 1443120000],
    [863789400, 0.09843, ...]
]
ETL und ELT mit Python

Über Dictionary-Bestandteile iterieren

# Loop over keys
for key in raw_data.keys():
    ...
# Loop over values
for value in raw_data.values():
    ...
# Loop over keys and values
for key, value in raw_data.items():
    ...

.keys()

  • Erstellt eine Liste der Schlüssel in einem Dictionary

.values()

  • Erstellt eine Liste der Werte in einem Dictionary

.items()

  • Erzeugt eine Liste von Tupeln aus Schlüssel-Wert-Paaren
ETL und ELT mit Python

Daten aus Dictionaries parsen

entry = {
    "volume": 1443120000,
    "price": {
        "open": 0.12187,
        "close": 0.09791,
    }
}
# Parse data from dictionary using .get()
volume = entry.get("volume")
ticker = entry.get("ticker", "DCMP")
# Call .get() twice to return the nested "open" value
open_price = entry.get("price").get("open", 0)
ETL und ELT mit Python

DataFrame aus einer Liste von Listen erstellen

Eine Liste von Listen an pd.DataFrame() übergeben

# Pass a list of lists to pd.DataFrame
raw_data = pd.DataFrame(flattened_rows)

Spaltenüberschriften mit .columns setzen

# Create columns
raw_data.columns = ["timestamps", "open", "close", "volume"]

Index mit .set_index() setzen

# Set the index column to be "timestamps"
raw_data.set_index("timestamps")
ETL und ELT mit Python

Aktiendaten transformieren

parsed_stock_data = []

# Loop through each key-value pair of the raw_stock_data dictionary
for timestamp, ticker_info in raw_stock_data.items():
    parsed_stock_data.append([
        timestamp,
        ticker_info.get("price", {}).get("open", 0),  # Parse the opening price
        ticker_info.get("price", {}).get("close", 0),  # Parse the closing price
        ticker_info.get("volume", 0)  # Parse the volume
    ])
# Create a DataFrame, assign column names, and set an index
transformed_stock_data = pd.DataFrame(parsed_stock_data)
transformed_stock_data.columns = ["timestamps", "open", "close", "volume"]
transformed_stock_data = transformed_stock_data.set_index("timestamps")
ETL und ELT mit Python

Lass uns üben!

ETL und ELT mit Python

Preparing Video For Download...