Introductie tot JSON

Gestroomlijnde data-inname met pandas

Amany Mahfouz

Instructor

JavaScript Object Notation (JSON)

  • Gangbaar webdataformaat
  • Niet-tabelvormig
    • Records hoeven niet dezelfde attributen te hebben
  • Data in verzamelingen van objecten
  • Objecten zijn sets van attribuut-waardeparen
  • Geneste JSON: objecten in objecten
Gestroomlijnde data-inname met pandas

JSON-data lezen

  • read_json()
    • Neemt een padstring naar JSON of JSON-data als string
    • Geef datatypes op met het argument dtype
    • orient-argument om ongewone JSON-indelingen aan te geven
      • mogelijke waarden in de pandas-documentatie
Gestroomlijnde data-inname met pandas

Dataoriëntatie

  • JSON is niet tabelvormig
    • pandas raadt hoe het in een tabel past
  • pandas kan veelvoorkomende oriëntaties automatisch aan
Gestroomlijnde data-inname met pandas

Record-oriëntatie

  • Meest voorkomende JSON-indeling
    [
      {
          "age_adjusted_death_rate": "7.6",
          "death_rate": "6.2",
          "deaths": "32",
          "leading_cause": "Accidents Except Drug Posioning (V01-X39, X43, X45-X59, Y85-Y86)",
          "race_ethnicity": "Asian and Pacific Islander",
          "sex": "F",
          "year": "2007"
      },
      {
          "age_adjusted_death_rate": "8.1",
          "death_rate": "8.3",
          "deaths": "87",
          ...
    
Gestroomlijnde data-inname met pandas

Kolom-oriëntatie

  • Ruimte-efficiënter dan record-georiënteerde JSON
    {
      "age_adjusted_death_rate": {
          "0": "7.6",
          "1": "8.1",
          "2": "7.1",
          "3": ".",
          "4": ".",
          "5": "7.3",
          "6": "13",
          "7": "20.6",
          "8": "17.4",
          "9": ".",
          "10": ".",
          "11": "19.8",
          ...
    
Gestroomlijnde data-inname met pandas

Orientatie opgeven

  • Split-georiënteerde data - nyc_death_causes.json
    {
      "columns": [
          "age_adjusted_death_rate",
          "death_rate",
          "deaths",
          "leading_cause",
          "race_ethnicity",
          "sex",
          "year"
      ],
      "index": [...],
      "data": [
          [
              "7.6",
    
Gestroomlijnde data-inname met pandas

Orientatie opgeven

import pandas as pd

death_causes = pd.read_json("nyc_death_causes.json", orient="split")
print(death_causes.head())
  age_adjusted_death_rate death_rate deaths             leading_cause              race_ethnicity sex  year
0                     7.6        6.2     32  Accidents Except Drug...  Asian and Pacific Islander   F  2007
1                     8.1        8.3     87  Accidents Except Drug...          Black Non-Hispanic   F  2007
2                     7.1        6.1     71  Accidents Except Drug...                    Hispanic   F  2007
3                       .          .      .  Accidents Except Drug...          Not Stated/Unknown   F  2007
4                       .          .      .  Accidents Except Drug...       Other Race/ Ethnicity   F  2007

[5 rijen x 7 kolommen]
Gestroomlijnde data-inname met pandas

Laten we oefenen!

Gestroomlijnde data-inname met pandas

Preparing Video For Download...