Best practices voor het trainen van spaCy-modellen

Geavanceerde NLP met spaCy

Ines Montani

spaCy core developer

Probleem 1: Modellen kunnen dingen "vergeten"

Bestaand model kan overfitten op nieuwe data
- bv.: als je alleen WEBSITE update, kan het "verleren" wat PERSON is
Dit heet ook wel "catastrophic forgetting"

Voeg bij training op WEBSITE ook voorbeelden van PERSON toe
Laat het bestaande spaCy-model over je data lopen en neem andere relevante entiteiten mee

SLECHT:

TRAINING_DATA = [
    ('Reddit is a website', {'entities': [(0, 6, 'WEBSITE')]})
]

GOED:

TRAINING_DATA = [
    ('Reddit is a website', {'entities': [(0, 6, 'WEBSITE')]}),
    ('Obama is a person', {'entities': [(0, 5, 'PERSON')]})
]

spaCy-modellen voorspellen op basis van lokale context
Leren is lastig als de beslissing niet uit de context te halen is
Labelschema moet consistent zijn en niet te specifiek
- Voorbeeld: CLOTHING is beter dan ADULT_CLOTHING en CHILDRENS_CLOTHING

SLECHT:

LABELS = ['ADULT_SHOES', 'CHILDRENS_SHOES', 'BANDS_I_LIKE']

GOED:

LABELS = ['CLOTHING', 'BAND']

Geavanceerde NLP met spaCy