Durak sözcükler ve noktalama işaretleriyle çalışma

Python ile Natural Language Processing (NLP)

Fouad Trad

Machine Learning Engineer

Durak sözcükler

  • Sık görülürler ancak bağlamı makinenin anlamasına az katkı sağlar
  • Birçok NLP görevinde fazla değer katmazlar
  • Kaldırmak, modellerin önemli kelimelere odaklanmasına yardım eder

a, an, the, in, of, that, for, by vb. gibi birçok durak sözcüğü gösteren görsel.

Python ile Natural Language Processing (NLP)

Durak sözcükleri kaldırma

Şunlar için yararlı

Bir metnin konusunu anlamak

Bir mobil uygulamadaki ürün yorumlarını gösteren görsel

Python ile Natural Language Processing (NLP)

Durak sözcükleri kaldırma

Şunlar için yararlı

Bir metnin konusunu anlamak

Bir mobil uygulamadaki ürün yorumlarını gösteren görsel

Şunlar için yararlı değil

Metindeki her kelimenin gerekli olduğu görevler

İngilizceden (Good morning) Fransızcaya (Bonjour) çeviriyi gösteren görsel.

Python ile Natural Language Processing (NLP)

Durak sözcüklere erişim

NLTK, birçok dil için durak sözcük listesi sağlar

from nltk.corpus import stopwords
nltk.download('stopwords')

stop_words = stopwords.words('english')
print(stop_words[:10])
['a', 'about', 'above', 'after', 'again', 'against', 'ain', 'all', 'am', 'an']
Python ile Natural Language Processing (NLP)

Durak sözcükleri kaldırma

from nltk.tokenize import word_tokenize

text = "This is an example to demonstrate removing stop words."
tokens = word_tokenize(text)
# The .lower() method helps with case sensitivity filtered_tokens = [word for word in tokens if word.lower() not in stop_words]
print(filtered_tokens)
['example', 'demonstrate', 'removing', 'stop', 'words', '.']
Python ile Natural Language Processing (NLP)

Noktalama işaretleri

  • İnsanlar için dili yapılandırır
  • Birçok NLP görevinde anlamlı bilgi taşımaz

Noktalama işaretleri ve özel karakterleri gösteren görsel.

Python ile Natural Language Processing (NLP)

Noktalama temizleme

Şunlar için yararlı

Belgelerde ortak ya da önemli kelimeleri bulmayı gerektiren görevler

İşlenmesi gereken birden fazla dosya ve belgeyi gösteren görsel.

Python ile Natural Language Processing (NLP)

Noktalama temizleme

Şunlar için yararlı

Belgelerde ortak ya da önemli kelimeleri bulmayı gerektiren görevler

İşlenmesi gereken birden fazla dosya ve belgeyi gösteren görsel.

Şunlar için yararlı değil

Anlam için cümle yapısını korumayı gerektiren görevler

Bir kitap yığını ve onlardan üretilen bir özet belgesini gösteren görsel.

Python ile Natural Language Processing (NLP)

Noktalama erişimi ve temizleme

import string
print(string.punctuation)
!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~
text = "This is an example to demonstrate removing stop words."
tokens = word_tokenize(text)
filtered_tokens = [word for word in tokens if word.lower() not in stop_words]

clean_tokens = [word for word in filtered_tokens if word not in string.punctuation]
print(clean_tokens)
['example', 'demonstrate', 'removing', 'stop', 'words']
Python ile Natural Language Processing (NLP)

Hadi pratik yapalım!

Python ile Natural Language Processing (NLP)

Preparing Video For Download...