Menyesuaikan model spaCy

Pemrosesan Bahasa Alami dengan spaCy

Azadeh Mobasher

Principal data scientist

Mengapa melatih model spaCy?

  • Sangat membantu untuk kasus NLP umum
  • Namun mungkin tidak pernah melihat data domain spesifik saat pelatihan, mis.:
    • Data Twitter
    • Data medis

Contoh NER domain medis

Pemrosesan Bahasa Alami dengan spaCy

Mengapa melatih model spaCy?

 

  • Hasil lebih baik pada domain Anda
  • Penting untuk klasifikasi teks domain spesifik

 

Sebelum mulai melatih, tanyakan hal berikut:

  • Apakah model spaCy sudah cukup baik pada data kita?
  • Apakah domain kita punya banyak label yang tidak ada di model spaCy?
Pemrosesan Bahasa Alami dengan spaCy

Kinerja model pada data kita

  • Apakah model spaCy sudah cukup baik pada data kita?
  • Oxford Street tidak diklasifikasikan benar dengan label GPE:
import spacy
nlp = spacy.load("en_core_web_sm")

text = "The car was navigating to the Oxford Street."
doc = nlp(text)
print([(ent.text, ent.label_) for ent in doc.ents])
[('the Oxford Street', 'ORG')]
Pemrosesan Bahasa Alami dengan spaCy

Label keluaran dalam model spaCy

  • Apakah domain kita punya banyak label yang tidak ada di model spaCy?

Contoh NER: domain umum vs. medis

Pemrosesan Bahasa Alami dengan spaCy

Label keluaran dalam model spaCy

 

Jika perlu melatih model kustom, ikuti langkah ini:

  • Kumpulkan data domain Anda
  • Anotasi data
  • Tentukan akan memperbarui model yang ada atau melatih dari nol
Pemrosesan Bahasa Alami dengan spaCy

Ayo berlatih!

Pemrosesan Bahasa Alami dengan spaCy

Preparing Video For Download...