Semigestructureerde data

Introductie tot Redshift

Jason Myers

Principal Architect

Semigestructureerde data

  • Opgeslagen in Redshifts type SUPER
  • Heeft aparte SQL-functies voor verschillende indelingen
  • JSON is een type semigestructureerde data
Introductie tot Redshift

Functies voor JSON-validatie

  • IS_VALID_JSON – controleert of een volledig JSON-object geldig is
SELECT IS_VALID_JSON('{"one":1, "two":2}');
IS_VALID_JSON
=============
true
SELECT IS_VALID_JSON('{"one":1, "two":2');
IS_VALID_JSON
=============
false
  • IS_VALID_JSON_ARRAY – controleert of een JSON-array geldig is.
SELECT IS_VALID_JSON_ARRAY('{"one":1}')
IS_VALID_JSON_ARRAY
===================
false
SELECT IS_VALID_JSON_ARRAY('[1,2,3]')
IS_VALID_JSON_ARRAY
===================
true
Introductie tot Redshift

Extractie uit een JSON-object

  • JSON_EXTRACT_PATH_TEXT geeft de waarde op een JSON-pad
  • Neemt een JSON-string of veld plus één of meer sleutels voor het pad
SELECT JSON_EXTRACT_PATH_TEXT('{"one":1, "two":2}', 'one');
JSON_EXTRACT_PATH_TEXT
======================
1
Introductie tot Redshift

Ongeldige JSON proberen te parsen

-- Proberen een pad te extraheren uit slecht gevormde JSON
SELECT JSON_EXTRACT_PATH_TEXT('{"one":1, "two":2', 'one');
JSON parsing error
DETAIL:  
  =========================================
  error:  JSON parsing error
  code:      8001
  context:   invalid json object 
  query:     [child_sequence:'one']
  location:  funcs_json.hpp:202
  process:   padbmaster [pid=1073807529]
  =========================================
Introductie tot Redshift

Extractie uit geneste JSON-paden

  • Geef meerdere sleutels mee
SELECT JSON_EXTRACT_PATH_TEXT('
         {
           "one_object":{
              "nested_three": 3, 
              "nested_four":4
           }, 
           "two":2
         }', 
         'one_object', 'nested_three');
JSON_EXTRACT_PATH_TEXT
======================
3
Introductie tot Redshift

Extractie uit niet-bestaande geneste JSON-paden

  • Retourneert NULL
    SELECT JSON_EXTRACT_PATH_TEXT('
           {
             "one_object":{
                "nested_three": 3, 
                "nested_four":4
             }, 
             "two":2
           }', 
           'two', 'nested_five');
    
JSON_EXTRACT_PATH_TEXT
======================
NULL
Introductie tot Redshift

Extractie uit een JSON-array

  • JSON_EXTRACT_ARRAY_ELEMENT_TEXT geeft de waarde op een array-index
  • Neemt een JSON-string of veld plus een integer index vanaf nul.
SELECT JSON_EXTRACT_ARRAY_ELEMENT_TEXT('[1.1,400,13]', 2);
JSON_EXTRACT_ARRAY_ELEMENT_TEXT
===============================
13
SELECT JSON_EXTRACT_ARRAY_ELEMENT_TEXT('[1.1,400,13]', 3);
JSON_EXTRACT_ARRAY_ELEMENT_TEXT
===============================
NULL
Introductie tot Redshift

Extractie uit een geneste JSON-array

SELECT JSON_EXTRACT_ARRAY_ELEMENT_TEXT(
           JSON_EXTRACT_PATH_TEXT('
               {
                 "one":1, 
                 "nested_two":[3,4,5]
               }', 
               -- Waarde bij nested_two ophalen met JSON_EXTRACT_PATH_TEXT
               'nested_two'
            ),
            -- Item op positie één van de array ophalen met JSON_EXTRACT_ARRAY_ELEMENT_TEXT
            1
       );
JSON_EXTRACT_ARRAY_ELEMENT_TEXT
===============================
4
Introductie tot Redshift

Snelkoppeling: extractie uit een geneste JSON-array

  • Array-index moet een string zijn
-- Twee sleutels ('nested_two', '1') doorgeven om
-- het tweede element van de arraywaarde van nested_two te kiezen
SELECT JSON_EXTRACT_PATH_TEXT('
          {
            "one":1, 
            "nested_two":[3,4,5]
          }', 
          'nested_two', '1'
       );
JSON_EXTRACT_PATH_TEXT
======================
4
Introductie tot Redshift

Casten in CTE's

WITH location_details AS (
    SELECT '{
        "location": "Salmon Challis National Forest",
      }'::SUPER::VARCHAR AS data
) 
  • Toegankelijk als location_details.data
Introductie tot Redshift

Laten we oefenen!

Introductie tot Redshift

Preparing Video For Download...