Menyiapkan data pelatihan

Pemrosesan Bahasa Alami dengan spaCy

Azadeh Mobasher

Principal data scientist

Langkah pelatihan

 

  1. Anotasi dan siapkan data input
  2. Inisialisasi bobot model
  3. Prediksi beberapa contoh dengan bobot saat ini
  4. Bandingkan prediksi dengan jawaban benar
  5. Gunakan optimizer untuk menghitung bobot yang meningkatkan kinerja
  6. Perbarui bobot sedikit
  7. Kembali ke langkah 3.
Pemrosesan Bahasa Alami dengan spaCy

Menganotasi dan menyiapkan data

  • Langkah pertama: siapkan data pelatihan dalam format yang diperlukan
  • Setelah mengumpulkan data, kita melakukan anotasi
  • Anotasi berarti memberi label intent, entitas, dll.
  • Berikut contoh data yang dianotasi:
annotated_data = {
"sentence": "An antiviral drugs used against influenza is neuraminidase inhibitors.",
"entities": {
             "label": "Medicine",
             "value": "neuraminidase inhibitors",
    }
}
Pemrosesan Bahasa Alami dengan spaCy

Menganotasi dan menyiapkan data

  • Berikut contoh lain data yang dianotasi:

 

annotated_data = {
"sentence": "Bill Gates visited the SFO Airport.",
"entities": [{"label": "PERSON", "value": "Bill Gates"}, 
             {"label": "LOC", "value": "SFO Airport"}]
}
Pemrosesan Bahasa Alami dengan spaCy

Format data pelatihan spaCy

  • Anotasi data menyiapkan data pelatihan untuk hal yang ingin dipelajari model
  • Dataset pelatihan harus disimpan sebagai dictionary:
training_data = [
("I will visit you in Austin.", {"entities": [(20, 26, "GPE")]}),
("I'm going to Sam's house.", {"entities": [(13,18, "PERSON"), (19, 24, "GPE")]}),
("I will go.", {"entities": []})
]

Tiga pasangan contoh:

  • Tiap pasangan berisi kalimat sebagai elemen pertama
  • Elemen kedua adalah daftar entitas beranotasi dengan indeks awal–akhir
Pemrosesan Bahasa Alami dengan spaCy

Data objek Example untuk pelatihan

  • Kita tidak dapat memberi teks mentah langsung ke spaCy

  • Kita perlu membuat objek Example untuk tiap contoh pelatihan

import spacy
from spacy.training import Example

nlp = spacy.load("en_core_web_sm")

doc = nlp("I will visit you in Austin.")

annotations = {"entities": [(20, 26, "GPE")]} example_sentence = Example.from_dict(doc, annotations)
print(example_sentence.to_dict())
Pemrosesan Bahasa Alami dengan spaCy

Ayo berlatih!

Pemrosesan Bahasa Alami dengan spaCy

Preparing Video For Download...