Umgang mit semistrukturierten Daten

Einführung in Snowflake SQL

George Boorman

Senior Curriculum Manager, DataCamp

Strukturiert versus semistrukturiert

Beispiel für strukturierte Daten

| cust_id | cust_name | cust_age | cust_email            |
|---------|-----------|----------|-----------------------|
| 1       | cust1     | 40       | cust1***@gmail.com    |
| 2       | cust2     | 35       | cust2***@gmail.com    |
| 3       | cust3     | 42       | cust3***@gmail.com    |

Beispiel für semistrukturierte Daten

Customer semi-structured data in the form of JSON with customer 2 having two emails

Einführung in Snowflake SQL

JSON

  • JavaScript Object Notation
  • Häufige Anwendungsfälle<b>:</b> Web-APIs und Konfigurationsdateien
  • JSON-Datenstruktur:
    • Schlüssel-Wert-Paare, z. B. cust_id: 1

Customer JSON records example having customer id, name, age and email

Einführung in Snowflake SQL

JSON in Snowflake

  • JSON wird automatisch unterstützt
  • Flexibel für sich entwickelnde Schemata

 

Vergleiche:

  • Postgres: Nutzt JSONB
  • Snowflake: Nutzt VARIANT
Einführung in Snowflake SQL

Wie Snowflake JSON-Daten speichert

  • VARIANT unterstützt die Datentypen OBJECT und ARRAY
    • OBJECT: { "key": "value"}
    • ARRAY: ["list", "of", "values"]
  • Erstellen einer Snowflake-Tabelle für die Verarbeitung von JSON-Daten
    CREATE TABLE cust_info_json_data (
      customer_id INT,
      customer_info VARIANT -- Datentyp VARIANT
    );
    
Einführung in Snowflake SQL

Funktionen für semistrukturierte Daten

  • PARSE_JSON

    • expr: JSON-Daten im String-Format
    • Gibt zurück: Typ VARIANT, gültiges JSON-Objekt
Einführung in Snowflake SQL

PARSE_JSON

Beispiel:

SELECT PARSE_JSON(
  -- Enclosed in strings      
  '{
  "cust_id": 1,
  "cust_name": "cust1",
  "cust_age": 40,
  "cust_email":"cust1***@gmail.com"
  }
  '-- Enclosed in strings
) AS customer_info_json

Result of PARSE_JSON

Einführung in Snowflake SQL

OBJECT_CONSTRUCT

  • OBJECT_CONSTRUCT

    • Syntax: OBJECT_CONSTRUCT( [<key1>, <value1> [, <keyN>, <valueN> ...]] )
    • Gibt zurück: JSON-Objekt
    SELECT OBJECT_CONSTRUCT(
      -- Comma separated values rather than : notation
          'cust_id', 1,
          'cust_name', 'cust1',
          'cust_age', 40,
          'cust_email', 'cust1***@gmail.com'
    )

Table with \`customer_info\` column with data stored in JSON format

Einführung in Snowflake SQL

Abfragen von JSON-Daten in Snowflake

Einfaches JSON

  • :
    SELECT
      customer_info:cust_age, -- Use colon to access cust_age from column
      customer_info:cust_name,
      customer_info:cust_email,
    FROM 
      cust_info_json_data;
    

Query result showing customer age, customer name and email as separate columns

Einführung in Snowflake SQL

Abfragen von verschachtelten JSON-Daten in Snowflake

Beispiel für verschachtelte JSON-Daten

A nested JSON data where address is an object having street, city and state key-value pairs

  • Doppelpunkt: :
  • Punkt: .
Einführung in Snowflake SQL

Abfragen von verschachtelten JSON-Daten mit Doppelpunkt/Punkt

Zugriff auf Werte mit Doppelpunkt-Notation

<column>:<level1_element>:<level2_element>:<level3_element>

SELECT 
    customer_info:address:street AS street_name 
FROM 
    cust_info_json_data

Query result showing street_name

Zugriff auf Werte mit Punkt-Notation

<column>:<level1_element>.<level2_element>.<level3_element>

SELECT
    customer_info:address.street AS street_name
FROM
    cust_info_json_data

Query result showing street_name

Einführung in Snowflake SQL

Lass uns üben!

Einführung in Snowflake SQL

Preparing Video For Download...