RegEx met spaCy

Natural Language Processing met spaCy

Azadeh Mobasher

Principal Data Scientist

Wat is RegEx?

 

  • Regelgebaseerde informatie-extractie (IR) is nuttig voor veel NLP-taken
  • Regular expression (RegEx) wordt gebruikt voor complexe patroonherkenning in strings
  • RegEx vindt en haalt patronen op of vervangt overeenkomende patronen

RegEx: link- en telefooninformatie-extractie

Natural Language Processing met spaCy

Sterke en zwakke punten van RegEx

Pluspunten:

  • Maakt robuuste regels voor informatie-opvraag mogelijk
  • Vindt veel varianten in strings
  • Snel
  • Ondersteund in programmeertalen

Minpunten:

  • Syntax is lastig voor beginners
  • Vereist kennis van alle manieren waarop een patroon in tekst kan voorkomen
Natural Language Processing met spaCy

RegEx in Python

 

  • Python wordt geleverd met de RegEx-bibliotheek re.
  • Eerste stap met het re-pakket: definieer een pattern.
  • Gebruik het patroon om overeenkomende inhoud te vinden.

 

import re

pattern = r"((\d){3}-(\d){3}-(\d){4})"
text = "Our phone number is 832-123-5555 and their phone number is 425-123-4567."
Natural Language Processing met spaCy

RegEx in Python

 

  • We gebruiken de methode .finditer() uit re
iter_matches = re.finditer(pattern, text)

for match in iter_matches: start_char = match.start() end_char = match.end()
print ("Start character: ", start_char, "| End character: ", end_char, "| Matching text: ", text[start_char:end_char])
>>> Start character:  20 | End character:  32 | Matching text:  832-123-5555
Start character:  59 | End character:  71 | Matching text:  425-123-4567
Natural Language Processing met spaCy

RegEx in spaCy

  • RegEx in drie pipeline-componenten: Matcher, PhraseMatcher en EntityRuler.
text = "Our phone number is 832-123-5555 and their phone number is 425-123-4567."

nlp = spacy.blank("en") patterns = [{"label": "PHONE_NUMBER", "pattern": [{"SHAPE": "ddd"}, {"ORTH": "-"}, {"SHAPE": "ddd"}, {"ORTH": "-"}, {"SHAPE": "dddd"}]}]
ruler = nlp.add_pipe("entity_ruler") ruler.add_patterns(patterns) doc = nlp(text) print ([(ent.text, ent.label_) for ent in doc.ents])
>>> [('832-123-5555', 'PHONE_NUMBER'), ('425-123-4567', 'PHONE_NUMBER')]
Natural Language Processing met spaCy

Laten we oefenen!

Natural Language Processing met spaCy

Preparing Video For Download...