Patroonmatching

Data opschonen in PostgreSQL-databases

Darryl Reeves, Ph.D.

Industry Assistant Professor, New York University

Patronen herkennen: een voorbeeld

 camis    |              name               | inspection_date | score | nta  | ... 
 ---------+---------------------------------+-----------------+-------+------+-----
 ...      | ...                             | ...             | ...   | ...  | ...
 41659848 | LA BRISA DEL CIBAO              | 01/30/2018      | 20    | QN26 | ...
 40961447 | MESON SEVILLA RESTAURANT        | 03/19/2019      | 50    | MN15 | ...
 50063071 | WA BAR                          | 05/23/2018      | 15    | MN17 | ...
 50034992 | EMPANADAS MONUMENTAL            | 06/21/2019      | 17    | MN35 | ...
 50095871 | ALPHONSO'S PIZZERIA & TRATTORIA | 01/16/2020      | 10    | MN28 | ...
 41104041 | THE SPARROW TAVERN              | 09/17/2019      | 13    | QN72 | ...
 50016937 | BURGER KING                     | 09/14/2018      | 12    | QN55 | ...
 50066469 | DARBAR'S CHICKEN & RIBS         | 08/07/2017      | 11    | QN55 | ...
 41195691 | F & J PINE RESTAURANT           | 05/02/2019      | 26    | BX49 | ...
 50015706 | EL RINCONCITO DE LOS SABORES    | 12/18/2019      | 20    | QN35 | ...
 ...      | ...                             | ..    | ...  | ...
1 https://www1.nyc.gov/site/planning/data-maps/open-data/dwn-nynta.page
Data opschonen in PostgreSQL-databases

Patronen herkennen: een voorbeeld

Geldige voorvoegsels voor NTA-code

  • MN - Manhattan
  • BK - Brooklyn
  • BX - Bronx
  • QN - Queens
  • SI - Staten Island
Data opschonen in PostgreSQL-databases

Patronen herkennen: een voorbeeld

Tabelresultaten met een rood kader rond een ongeldige NTA-code

Data opschonen in PostgreSQL-databases

De LIKE-operator

SELECT * FROM restaurant_inspection WHERE nta LIKE 'QN544';
SELECT * FROM restaurant_inspection WHERE nta = 'QN544';
Data opschonen in PostgreSQL-databases

De LIKE-operator

Tekens voor patroonmatching

  • % - komt overeen met elke reeks van nul of meer tekens

  • _ (underscore) - komt overeen met één teken

SELECT 
* 
FROM 
restaurant_inspection 
WHERE nta LIKE 'QN%';

 

 

 

SELECT 
* 
FROM 
restaurant_inspection 
WHERE nta LIKE 'QN%' 
AND nta NOT LIKE 'QN__';
Data opschonen in PostgreSQL-databases

Regular expressions (RE's)

  • Patroonmatching met LIKE is beperkt
  • Specifiekere patronen kunnen nuttig zijn
  • Regular expressions (RE's) bieden expressievere patroonmatching
Data opschonen in PostgreSQL-databases

De SIMILAR TO-operator

  • Biedt extra functionaliteit voor patroonmatching
    SELECT 
      camis, name, inspection_date, score, nta 
    FROM 
      restaurant_inspection 
    WHERE nta SIMILAR TO 'QN%' AND nta NOT SIMILAR TO 'QN__';
    
Data opschonen in PostgreSQL-databases

Basis van RE's

Metateken Gebruik Voorbeeld-RE Voorbeeldmatch
\d komt overeen met een cijfer (0-9) \d\d\d '345'
? komt 0 of 1 keer overeen met vorig teken x\d? 'x5'
+ komt één of meer keer overeen met vorig teken \d+ '10'
* komt 0 of meer keer overeen met elk teken \d* '3081'
[] komt overeen met een teken binnen de haken [a-z] 'f'
Data opschonen in PostgreSQL-databases

RE's gebruiken met SIMILAR TO

SELECT 
    camis, name, inspection_date, score, nta 
FROM 
    restaurant_inspection 
WHERE nta SIMILAR TO 'QN%' AND nta NOT SIMILAR TO 'QN__';
SELECT 
    camis, name, inspection_date, score, nta 
FROM 
    restaurant_inspection 
WHERE 
    nta NOT SIMILAR TO '[A-Z][A-Z]\d\d';
 camis    |        name        | inspection_date | score | nta  
 ---------+--------------------+-----------------+-------+------
 41659848 | LA BRISA DEL CIBAO | 01/30/2018      | 20    | Q26
 41104041 | THE SPARROW TAVERN | 09/17/2019      | 13    | QN723
Data opschonen in PostgreSQL-databases

Laten we oefenen!

Data opschonen in PostgreSQL-databases

Preparing Video For Download...