Mengekstrak data non-tabel

ETL dan ELT di Python

Jake Roach

Data Engineer

Mengekstrak data non-tabel

Pipa ETL dengan komponen extract disorot.

ETL dan ELT di Python

Jenis data non-tabel

Sebagian besar data yang diproduksi dan dikonsumsi tidak terstruktur

  • Teks
  • Audio
  • Gambar
  • Video
  • Spasial
  • IoT

Sumber data tidak terstruktur yang mengalami transformasi.

1 https://mitsloan.mit.edu/ideas-made-to-matter/tapping-power-unstructured-data
ETL dan ELT di Python

Bekerja dengan API dan data JSON

API (Application Programming Interface)

  • Perangkat lunak di atas sumber data
  • Mencegah interaksi langsung dengan database

$$

Data engineer menggunakan API untuk berinteraksi dengan database.

JSON (JavaScript Object Notation)

  • Pasangan kunci-nilai
  • Tanpa skema tetap
  • Mirip tampilan dan penggunaan dengan dictionary
{
    "key": "value",
    ...
    "open": 0.121875
}
ETL dan ELT di Python

Membaca file JSON dengan pandas

{
    "timestamps": [863703000, 863789400, ...],
    "open": [0.121875, 0.098438, ...],
    "close": [...],
    "volume": [...]
}

Gunakan fungsi .read_json()

# Read in a JSON file in the format above
raw_stock_data = pd.read_json("raw_stock_data.json", orient="columns")
1 https://pandas.pydata.org/docs/reference/api/pandas.read_json.html
ETL dan ELT di Python

Data JSON bertingkat/tidak terstruktur

Data tidak selalu siap menjadi DataFrame

  • Objek bertingkat
  • "Skema" bervariasi
{
    "863703000": {
        "volume": 1443120000,
        "price": {
            "close": 0.09791,
            "open": 0.12187
        }
    }, 
    "863789400": {
        ...
    }, ...
}
ETL dan ELT di Python

Membaca file JSON dengan json

import json

with open("raw_stock_data.json", "r") as file:
    # Load the file into a dictionary
    raw_stock_data = json.load(file)

# Confirm the type of the raw_stock_data variable
print(type(raw_stock_data))
<class 'dict'>
ETL dan ELT di Python

Ayo berlatih!

ETL dan ELT di Python

Preparing Video For Download...