spaCy ile Natural Language Processing
Azadeh Mobasher
Principal Data Scientist
import spacynlp = spacy.load("en_core_web_sm")doc = nlp("Here's my spaCy pipeline.")
spaCy'yi içe aktarınspacy.load() ile Language sınıfından nlp döndürünLanguage nesnesi metin işleme boru hattıdırnlp() uygulayarak bir Doc kapsayıcısı alın
spaCy, Language sınıfını kullanarak bazı işlem adımlarını uygular:
spaCy'de metni temsil eden birden çok veri yapısı vardır:
| Ad | Açıklama |
|---|---|
Doc |
Metnin dilbilimsel ek açıklamalarına erişim için bir kapsayıcı |
Span |
Bir Doc nesnesinden bir dilim |
Token |
Tek bir belirteç; örn. kelime, noktalama, boşluk vb. |
spaCy dil işleme boru hattı, yüklenen modele ve yeteneklerine bağlıdır.
| Bileşen | Ad | Açıklama |
|---|---|---|
| Tokenizer | Tokenizer | Metni belirteçlere böler ve Doc nesnesi oluşturur |
| Tagger | Tagger | Sözcük türü etiketleri atar |
| Lemmatizer | Lemmatizer | Kelimeleri kök biçimlerine indirger |
| EntityRecognizer | NER | Adlandırılmış varlıkları tespit eder ve etiketler |
Her bileşen metni işlemede özgün özelliklere sahiptir
import spacy nlp = spacy.load("en_core_web_sm") doc = nlp("Tokenization splits a sentence into its tokens.")print([token.text for token in doc])
['Tokenization', 'splits', 'a', 'sentence', 'into', 'its', 'tokens', '.']
DependencyParser bileşeninin bir parçasıdırimport spacy nlp = spacy.load("en_core_web_sm") text = "We are learning NLP. This course introduces spaCy." doc = nlp(text)for sent in doc.sents: print(sent.text)
We are learning NLP.
This course introduces spaCy.
import spacy nlp = spacy.load("en_core_web_sm") doc = nlp("We are seeing her after one year.")print([(token.text, token.lemma_) for token in doc])
[('We', 'we'), ('are', 'be'), ('seeing', 'see'), ('her', 'she'),
('after', 'after'), ('one', 'one'), ('year', 'year'), ('.', '.')]
spaCy ile Natural Language Processing