Niet-tabulaire data extraheren

ETL en ELT in Python

Jake Roach

Data Engineer

Niet-tabulaire data extraheren

ETL-pijplijn met de extract-stap gemarkeerd.

ETL en ELT in Python

Typen niet-tabulaire data

De meeste geproduceerde en gebruikte data is ongestructureerd

  • Tekst
  • Audio
  • Afbeelding
  • Video
  • Ruimtelijk
  • IoT

Ongestructureerde databronnen ondergaan transformatie.

1 https://mitsloan.mit.edu/ideas-made-to-matter/tapping-power-unstructured-data
ETL en ELT in Python

Werken met API's en JSON-data

API (Application Programming Interface)

  • Software bovenop databronnen
  • Voorkomt directe interactie met database

$$

Data engineer die een API gebruikt om met een database te werken.

JSON (JavaScript Object Notation)

  • Sleutel-waardeparen
  • Geen vast schema
  • Lijkt qua look-and-feel op dictionaries
{
    "key": "value",
    ...
    "open": 0.121875
}
ETL en ELT in Python

JSON-bestanden lezen met pandas

{
    "timestamps": [863703000, 863789400, ...],
    "open": [0.121875, 0.098438, ...],
    "close": [...],
    "volume": [...]
}

Gebruik de functie .read_json()

# Read in a JSON file in the format above
raw_stock_data = pd.read_json("raw_stock_data.json", orient="columns")
1 https://pandas.pydata.org/docs/reference/api/pandas.read_json.html
ETL en ELT in Python

Geneste of ongestructureerde JSON-data

Data is niet altijd direct DataFrame-klaar

  • Geneste objecten
  • Variërend "schema"
{
    "863703000": {
        "volume": 1443120000,
        "price": {
            "close": 0.09791,
            "open": 0.12187
        }
    }, 
    "863789400": {
        ...
    }, ...
}
ETL en ELT in Python

JSON-bestanden lezen met json

import json

with open("raw_stock_data.json", "r") as file:
    # Load the file into a dictionary
    raw_stock_data = json.load(file)

# Confirm the type of the raw_stock_data variable
print(type(raw_stock_data))
<class 'dict'>
ETL en ELT in Python

Laten we oefenen!

ETL en ELT in Python

Preparing Video For Download...