Nicht-tabellarische Daten extrahieren

ETL und ELT mit Python

Jake Roach

Data Engineer

Nicht-tabellarische Daten extrahieren

ETL-Pipeline mit hervorgehobener Extract-Komponente.

ETL und ELT mit Python

Arten nicht-tabellarischer Daten

Die meisten erzeugten und genutzten Daten sind unstrukturiert

  • Text
  • Audio
  • Bild
  • Video
  • Räumlich
  • IoT

Unstrukturierte Datenquellen werden transformiert.

1 https://mitsloan.mit.edu/ideas-made-to-matter/tapping-power-unstructured-data
ETL und ELT mit Python

Arbeiten mit APIs und JSON-Daten

API (Application Programming Interface)

  • Software-Schicht über Datenquellen
  • Verhindert direkten Datenbankzugriff

$$

Data Engineer nutzt eine API für den Datenbankzugriff.

JSON (JavaScript Object Notation)

  • Schlüssel-Wert-Paare
  • Kein fixes Schema
  • Wirkt ähnlich wie dictionaries
{
    "key": "value",
    ...
    "open": 0.121875
}
ETL und ELT mit Python

JSON-Dateien mit pandas lesen

{
    "timestamps": [863703000, 863789400, ...],
    "open": [0.121875, 0.098438, ...],
    "close": [...],
    "volume": [...]
}

Verwende die Funktion .read_json()

# Read in a JSON file in the format above
raw_stock_data = pd.read_json("raw_stock_data.json", orient="columns")
1 https://pandas.pydata.org/docs/reference/api/pandas.read_json.html
ETL und ELT mit Python

Verschachtelte oder unstrukturierte JSON-Daten

Daten sind nicht immer DataFrame‑fertig

  • Verschachtelte Objekte
  • Variierende „Schemata“
{
    "863703000": {
        "volume": 1443120000,
        "price": {
            "close": 0.09791,
            "open": 0.12187
        }
    }, 
    "863789400": {
        ...
    }, ...
}
ETL und ELT mit Python

JSON-Dateien mit json lesen

import json

with open("raw_stock_data.json", "r") as file:
    # Load the file into a dictionary
    raw_stock_data = json.load(file)

# Confirm the type of the raw_stock_data variable
print(type(raw_stock_data))
<class 'dict'>
ETL und ELT mit Python

Lass uns üben!

ETL und ELT mit Python

Preparing Video For Download...