SpaCy-modellen aanpassen

Natural Language Processing met spaCy

Azadeh Mobasher

Principal data scientist

Waarom spaCy-modellen trainen?

  • Werken goed voor algemene NLP-cases
  • Maar hebben mogelijk geen data uit specifieke domeinen gezien, bijv.
    • Twitter-data
    • Medische data

Voorbeeld van NER in medisch domein

Natural Language Processing met spaCy

Waarom spaCy-modellen trainen?

 

  • Betere resultaten in je specifieke domein
  • Essentieel voor domeinspecifieke tekstanalyse

 

Stel vóór het trainen deze vragen:

  • Presteren spaCy-modellen goed genoeg op onze data?
  • Bevat ons domein veel labels die ontbreken in spaCy-modellen?
Natural Language Processing met spaCy

Modelprestaties op onze data

  • Presteren spaCy-modellen goed genoeg op onze data?
  • Oxford Street krijgt niet correct het label GPE:
import spacy
nlp = spacy.load("en_core_web_sm")

text = "The car was navigating to the Oxford Street."
doc = nlp(text)
print([(ent.text, ent.label_) for ent in doc.ents])
[('the Oxford Street', 'ORG')]
Natural Language Processing met spaCy

Uitvoerlables in spaCy-modellen

  • Bevat ons domein veel labels die ontbreken in spaCy-modellen?

NER-voorbeeld: algemeen vs. medisch domein

Natural Language Processing met spaCy

Uitvoerlables in spaCy-modellen

 

Als we maatwerktraining nodig hebben, volgen we deze stappen:

  • Verzamel domeinspecifieke data
  • Annoteer de data
  • Kies: bestaand model updaten of vanaf nul trainen
Natural Language Processing met spaCy

Laten we oefenen!

Natural Language Processing met spaCy

Preparing Video For Download...