Pengantar JSON

Pemasukan Data yang Efisien dengan pandas

Amany Mahfouz

Instructor

Javascript Object Notation (JSON)

  • Format data web umum
  • Tidak berbentuk tabel
    • Tiap record tidak harus punya atribut yang sama
  • Data diorganisasi dalam koleksi objek
  • Objek = pasangan atribut-nilai
  • JSON bertingkat: objek di dalam objek
Pemasukan Data yang Efisien dengan pandas

Membaca Data JSON

  • read_json()
    • Menerima path string ke JSON atau data JSON sebagai string
    • Tentukan tipe data dengan argumen kata kunci dtype
    • Argumen orient untuk menandai tata letak JSON yang tidak umum
      • nilai kemungkinan ada di dokumentasi pandas
Pemasukan Data yang Efisien dengan pandas

Orientasi Data

  • Data JSON tidak berbentuk tabel
    • pandas menebak cara menyusunnya ke tabel
  • pandas dapat menangani orientasi umum secara otomatis
Pemasukan Data yang Efisien dengan pandas

Orientasi Record

  • Susunan JSON paling umum
    [
      {
          "age_adjusted_death_rate": "7.6",
          "death_rate": "6.2",
          "deaths": "32",
          "leading_cause": "Accidents Except Drug Posioning (V01-X39, X43, X45-X59, Y85-Y86)",
          "race_ethnicity": "Asian and Pacific Islander",
          "sex": "F",
          "year": "2007"
      },
      {
          "age_adjusted_death_rate": "8.1",
          "death_rate": "8.3",
          "deaths": "87",
          ...
    
Pemasukan Data yang Efisien dengan pandas

Orientasi Kolom

  • Lebih hemat ruang daripada JSON berorientasi record
    {
      "age_adjusted_death_rate": {
          "0": "7.6",
          "1": "8.1",
          "2": "7.1",
          "3": ".",
          "4": ".",
          "5": "7.3",
          "6": "13",
          "7": "20.6",
          "8": "17.4",
          "9": ".",
          "10": ".",
          "11": "19.8",
          ...
    
Pemasukan Data yang Efisien dengan pandas

Menentukan Orientasi

  • Data berorientasi split - nyc_death_causes.json
    {
      "columns": [
          "age_adjusted_death_rate",
          "death_rate",
          "deaths",
          "leading_cause",
          "race_ethnicity",
          "sex",
          "year"
      ],
      "index": [...],
      "data": [
          [
              "7.6",
    
Pemasukan Data yang Efisien dengan pandas

Menentukan Orientasi

import pandas as pd

death_causes = pd.read_json("nyc_death_causes.json", orient="split")
print(death_causes.head())
  age_adjusted_death_rate death_rate deaths             leading_cause              race_ethnicity sex  year
0                     7.6        6.2     32  Accidents Except Drug...  Asian and Pacific Islander   F  2007
1                     8.1        8.3     87  Accidents Except Drug...          Black Non-Hispanic   F  2007
2                     7.1        6.1     71  Accidents Except Drug...                    Hispanic   F  2007
3                       .          .      .  Accidents Except Drug...          Not Stated/Unknown   F  2007
4                       .          .      .  Accidents Except Drug...       Other Race/ Ethnicity   F  2007

[5 rows x 7 columns]
Pemasukan Data yang Efisien dengan pandas

Ayo berlatih!

Pemasukan Data yang Efisien dengan pandas

Preparing Video For Download...