Werken met geneste JSON's

Gestroomlijnde data-inname met pandas

Amany Mahfouz

Instructor

Geneste JSON's

  • JSON's bevatten objecten met attribuut-waardeparen
  • Een JSON is genest als de waarde zelf een object is
Gestroomlijnde data-inname met pandas

Voorbeeld van JSON-respons uit de Yelp Business API-documentatie

Gestroomlijnde data-inname met pandas

Voorbeeld Yelp-responsdata, met geneste coördinaten en locatie gemarkeerd

Gestroomlijnde data-inname met pandas

Voorbeeld Yelp-responsdata, met geneste categoriedata gemarkeerd

Gestroomlijnde data-inname met pandas

Voorbeeld Yelp-responsdata, met geneste records onder businesses gemarkeerd

Gestroomlijnde data-inname met pandas
# Print kolommen met geneste data
print(bookstores[["categories", "coordinates", "location"]].head(3))
                                          categories  \
0   [{'alias': 'bookstores', 'title': 'Bookstores'}]   
1  [{'alias': 'bookstores', 'title': 'Bookstores'...   
2   [{'alias': 'bookstores', 'title': 'Bookstores'}]     

                                         coordinates  \
0  {'latitude': 37.7975997924805, 'longitude': -1...   
1  {'latitude': 37.7885846793652, 'longitude': -1...   
2  {'latitude': 37.7589836120605, 'longitude': -1...    

                                            location  
0  {'address1': '261 Columbus Ave', 'address2': '...  
1  {'address1': '50 2nd St', 'address2': '', 'add...  
2  {'address1': '866 Valencia St', 'address2': ''...
Gestroomlijnde data-inname met pandas

pandas.io.json

  • Submodule pandas.io.json heeft tools om JSON te lezen/schrijven
    • Vereist een eigen import
  • json_normalize()
    • Neemt een dict/lijst van dicts (zoals pd.DataFrame() )
    • Geeft een afgevlakte dataframe terug
    • Standaard patroon kolomnamen: attribute.nestedattribute
    • Kies een andere scheider met sep
Gestroomlijnde data-inname met pandas

Geneste JSON-data laden

import pandas as pd
import requests

from pandas.io.json import json_normalize
# Stel headers, parameters en API-endpoint in api_url = "https://api.yelp.com/v3/businesses/search" headers = {"Authorization": "Bearer {}".format(api_key)} params = {"term": "bookstore", "location": "San Francisco"}
# Doe de API-call en haal de JSON-data op response = requests.get(api_url, headers=headers, params=params) data = response.json()
Gestroomlijnde data-inname met pandas
# Vlak data af en laad naar dataframe, met _ als scheider
bookstores = json_normalize(data["businesses"], sep="_")
print(list(bookstores))
['alias', 
 'categories',
 'coordinates_latitude',
 'coordinates_longitude',
 ...
 'location_address1',
 'location_address2',
 'location_address3',
 'location_city',
 'location_country',
 'location_display_address',
 'location_state',
 'location_zip_code',
 ...
 'url']
Gestroomlijnde data-inname met pandas

Diep geneste data

print(bookstores.categories.head())
0     [{'alias': 'bookstores', 'title': 'Bookstores'}]
1    [{'alias': 'bookstores', 'title': 'Bookstores'...
2     [{'alias': 'bookstores', 'title': 'Bookstores'}]
3     [{'alias': 'bookstores', 'title': 'Bookstores'}]
4    [{'alias': 'bookstores', 'title': 'Bookstores'...
Name: categories, dtype: object
Gestroomlijnde data-inname met pandas

Diep geneste data

  • json_normalize()
    • record_path: string/lijst met attributen naar geneste data
    • meta: lijst met andere attributen om in de dataframe te laden
    • meta_prefix: string om voor meta-kolomnamen te zetten
Gestroomlijnde data-inname met pandas

Diep geneste data

# Vlak categories af en voeg bedrijfsdetails toe
df = json_normalize(data["businesses"],
                    sep="_",

record_path="categories",
meta=["name", "alias", "rating", ["coordinates", "latitude"], ["coordinates", "longitude"]],
meta_prefix="biz_")
Gestroomlijnde data-inname met pandas
print(df.head(4))
        alias               title                biz_name  \
0  bookstores          Bookstores   City Lights Bookstore   
1  bookstores          Bookstores  Alexander Book Company   
2  stationery  Cards & Stationery  Alexander Book Company   
3  bookstores          Bookstores       Borderlands Books   

                              biz_alias  biz_rating  biz_coordinates_latitude  \
0   city-lights-bookstore-san-francisco         4.5                 37.797600   
1  alexander-book-company-san-francisco         4.5                 37.788585   
2  alexander-book-company-san-francisco         4.5                 37.788585   
3       borderlands-books-san-francisco         5.0                 37.758984   

   biz_coordinates_longitude  
0                -122.406578  
1                -122.400631  
2                -122.400631  
3                -122.421638
Gestroomlijnde data-inname met pandas

Laten we oefenen!

Gestroomlijnde data-inname met pandas

Preparing Video For Download...