Natural Language Processing (NLP) in Python
Fouad Trad
Machine Learning Engineer

Het onderwerp van een tekst begrijpen

Het onderwerp van een tekst begrijpen

Taken die elk woord in de tekst vereisen

NLTK biedt een lijst met stopwoorden voor meerdere talen
from nltk.corpus import stopwords nltk.download('stopwords')stop_words = stopwords.words('english')print(stop_words[:10])
['a', 'about', 'above', 'after', 'again', 'against', 'ain', 'all', 'am', 'an']
from nltk.tokenize import word_tokenizetext = "This is an example to demonstrate removing stop words."tokens = word_tokenize(text)# The .lower() method helps with case sensitivity filtered_tokens = [word for word in tokens if word.lower() not in stop_words]print(filtered_tokens)
['example', 'demonstrate', 'removing', 'stop', 'words', '.']

Taken die veelvoorkomende of belangrijke woorden in documenten zoeken

Taken die veelvoorkomende of belangrijke woorden in documenten zoeken

Taken waarbij zinsstructuur nodig is voor duidelijkheid

import string
print(string.punctuation)
!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~
text = "This is an example to demonstrate removing stop words." tokens = word_tokenize(text) filtered_tokens = [word for word in tokens if word.lower() not in stop_words]clean_tokens = [word for word in filtered_tokens if word not in string.punctuation]print(clean_tokens)
['example', 'demonstrate', 'removing', 'stop', 'words']
Natural Language Processing (NLP) in Python