Kolomgegevens splitsen

Data opschonen in PostgreSQL-databases

Darryl Reeves, Ph.D.

Industry Assistant Professor, New York University

Kolommen splitsen

 camis    | inspection_date |                    violation                    | ... 
 ---------+-----------------+-------------------------------------------------+-----
 ...      | ...             | ...                                             | ...
 50038736 | 03/29/2018      | 09B Thawing procedures                          | ...
 50033304 | 12/18/2019      | 02B Hot food item not held at or above 140º ... | ...
 50081658 | 12/13/2018      | 06F Wiping cloths soiled or not stored in sa... | ...
 50033733 | 02/12/2019      | 10B Plumbing not properly installed or maint... | ...
 40559634 | 08/22/2017      | 04N Filth flies or food/refuse/sewage-associ... | ...
 ...      | ...             | ...                                             | ...
Data opschonen in PostgreSQL-databases

Startpositie van substring vinden met STRPOS()

STRPOS(source_string, search_string)

Een diagram van een overtredingsstring "09B Thawing procedures". Het diagram toont indexnummers eronder: 1 bij de 0 in de tekst, 4 bij de eerste spatie en 22 bij de s aan het einde.

SELECT
  STRPOS('09B Thawing procedures', ' ');
4
Data opschonen in PostgreSQL-databases

Startpositie van substring vinden met STRPOS()

Een diagram van een overtredingsstring "09B Thawing procedures". Het diagram toont indexnummers eronder: 1 bij de 0 in de tekst, 4 bij de eerste spatie en 22 bij de s aan het einde.

SELECT
  STRPOS('09B Thawing procedures', '?');
0
Data opschonen in PostgreSQL-databases

Startpositie van substring vinden met STRPOS()

Een diagram van een overtredingsstring "09B Thawing procedures". Het diagram toont indexnummers eronder: 1 bij de 0 in de tekst, 4 bij de eerste spatie en 22 bij de s aan het einde.

SELECT
  STRPOS('09B Thawing procedures', ' ');
4
Data opschonen in PostgreSQL-databases

Een substring extraheren met SUBSTRING()

SUBSTRING(source_string FROM start_pos FOR num_chars)

Data opschonen in PostgreSQL-databases

Een substring extraheren met SUBSTRING()

SUBSTRING('Homerun' FROM 1 FOR 4)Home

Een diagram van een overtredingsstring "09B Thawing procedures". Het diagram toont indexnummers eronder: 1 bij de 0 in de tekst, 4 bij de eerste spatie en 22 bij de s aan het einde.

SELECT
  SUBSTRING(
      '09B Thawing procedures'
      FROM 1
      FOR STRPOS('09B Thawing procedures', ' ') - 1
  );
09B
Data opschonen in PostgreSQL-databases

Een substring extraheren met SUBSTRING()

Een diagram van een overtredingsstring "09B Thawing procedures". Het diagram toont indexnummers eronder: 1 bij de 0 in de tekst, 4 bij de eerste spatie en 22 bij de s aan het einde. Een paar blauwe pijlen geven aan waar de overtredingsbeschrijving staat, precies dit deel van de string.

Benodigdheden:

  • Startpositie beschrijving
  • Aantal tekens in de beschrijving
SELECT
  STRPOS('09B Thawing procedures', ' ') + 1;
5
Data opschonen in PostgreSQL-databases

De lengte van een string berekenen met LENGTH()

Een diagram van een overtredingsstring "09B Thawing procedures". Het diagram toont indexnummers eronder: 1 bij de 0 in de tekst, 4 bij de eerste spatie en 22 bij de s aan het einde. De tekst "aantal tekens?" staat boven het gedeelte met de overtredingsbeschrijving.

LENGTH(string)INTEGER

SELECT LENGTH('hello')
5
Data opschonen in PostgreSQL-databases

De lengte van een string berekenen met LENGTH()

LENGTH('09B Thawing procedures')22

STRPOS('09B Thawing procedures', ' ')4

LENGTH('09B Thawing procedures') - STRPOS('09B Thawing procedures', ' ')18

LENGTH('Thawing procedures')18

Data opschonen in PostgreSQL-databases

De lengte van een string berekenen met LENGTH()

SELECT 
    LENGTH('09B Thawing procedures') - 
    STRPOS('09B Thawing procedures', ' ');
18

Een diagram van een overtredingsstring "09B Thawing procedures". Het diagram toont indexnummers eronder: 1 bij de 0 in de tekst, 4 bij de eerste spatie en 22 bij de s aan het einde. Een paar blauwe pijlen geven aan waar de overtredingsbeschrijving staat, precies dit deel van de string.

Data opschonen in PostgreSQL-databases

Alles samenbrengen

SELECT 
    SUBSTRING(
      '09B Thawing procedures'
      FROM
        STRPOS('09B Thawing procedures', ' ')
        + 1
      FOR
        LENGTH('09B Thawing procedures')
        - STRPOS('09B Thawing procedures', ' ')
    );
Thawing procedures
Data opschonen in PostgreSQL-databases

De violation-kolom splitsen

SELECT 
    camis, 
    inspection_date, 

    SUBSTRING(
      violation 
      FROM 1 
      FOR STRPOS(violation, ' ') - 1
    ) AS violation_code, 

    SUBSTRING(
      violation 
      FROM STRPOS(violation, ' ') + 1 
      FOR LENGTH(violation) - STRPOS(violation, ' ')
    ) AS violation_description 
FROM 
    restaurant_inspection;
Data opschonen in PostgreSQL-databases

De violation-kolom splitsen

 camis    | inspection_date |                    violation                    | ... 
 ---------+-----------------+-------------------------------------------------+-----
 ...      | ...             | ...                                             | ...
 50038736 | 03/29/2018      | 09B Thawing procedures                          | ...
 50033304 | 12/18/2019      | 02B Hot food item not held at or above 140º ... | ...
 50081658 | 12/13/2018      | 06F Wiping cloths soiled or not stored in sa... | ...
 50033733 | 02/12/2019      | 10B Plumbing not properly installed or maint... | ...
 40559634 | 08/22/2017      | 04N Filth flies or food/refuse/sewage-associ... | ...
 ...      | ...             | ...                                             | ...
Data opschonen in PostgreSQL-databases

De violation-kolom splitsen

 camis    | inspection_date | violation_code |            violation_description            | ... 
 ---------+-----------------+----------------+---------------------------------------------+-----
 ...      | ...             | ...            | ...                                         | ...
 50038736 | 03/29/2018      | 09B            | Thawing procedures                          | ...
 50033304 | 12/18/2019      | 02B            | Hot food item not held at or above 140º ... | ...
 50081658 | 12/13/2018      | 06F            | Wiping cloths soiled or not stored in sa... | ...
 50033733 | 02/12/2019      | 10B            | Plumbing not properly installed or maint... | ...
 40559634 | 08/22/2017      | 04N            | Filth flies or food/refuse/sewage-associ... | ...
 ...      | ...             | ...            | ...                                         | ...
Data opschonen in PostgreSQL-databases

Laten we oefenen!

Data opschonen in PostgreSQL-databases

Preparing Video For Download...