Penanganan stop word dan tanda baca

Natural Language Processing (NLP) in Python

Fouad Trad

Machine Learning Engineer

Stop word

  • Sering muncul tetapi sedikit membantu mesin memahami konteks
  • Tidak banyak bernilai untuk banyak tugas NLP
  • Menghapusnya membantu model fokus pada kata penting

Gambar yang menampilkan beberapa stopword seperti a, an, the, in, of, that, for, by, dll.

Natural Language Processing (NLP) in Python

Menghapus stop word

Berguna untuk

Memahami topik suatu teks

Gambar yang menampilkan ulasan produk pada aplikasi seluler

Natural Language Processing (NLP) in Python

Menghapus stop word

Berguna untuk

Memahami topik suatu teks

Gambar yang menampilkan ulasan produk pada aplikasi seluler

Tidak berguna untuk

Tugas yang membutuhkan setiap kata dalam teks

Gambar yang menampilkan teks diterjemahkan dari bahasa Inggris (Good morning) ke bahasa Prancis (Bonjour).

Natural Language Processing (NLP) in Python

Mengakses stop word

NLTK menyediakan daftar stop word untuk beberapa bahasa

from nltk.corpus import stopwords
nltk.download('stopwords')

stop_words = stopwords.words('english')
print(stop_words[:10])
['a', 'about', 'above', 'after', 'again', 'against', 'ain', 'all', 'am', 'an']
Natural Language Processing (NLP) in Python

Menghapus stop word

from nltk.tokenize import word_tokenize

text = "This is an example to demonstrate removing stop words."
tokens = word_tokenize(text)
# The .lower() method helps with case sensitivity filtered_tokens = [word for word in tokens if word.lower() not in stop_words]
print(filtered_tokens)
['example', 'demonstrate', 'removing', 'stop', 'words', '.']
Natural Language Processing (NLP) in Python

Tanda baca

  • Menyusun bahasa untuk manusia
  • Tidak bermakna untuk banyak tugas NLP

Gambar yang menampilkan tanda baca dan karakter khusus.

Natural Language Processing (NLP) in Python

Menghapus tanda baca

Berguna untuk

Tugas yang mencari kata umum atau penting dalam dokumen

Gambar yang menampilkan banyak berkas dan dokumen untuk diproses.

Natural Language Processing (NLP) in Python

Menghapus tanda baca

Berguna untuk

Tugas yang mencari kata umum atau penting dalam dokumen

Gambar yang menampilkan banyak berkas dan dokumen untuk diproses.

Tidak berguna untuk

Tugas yang perlu mempertahankan struktur kalimat agar jelas

Gambar tumpukan buku dan sebuah ringkasan yang dihasilkan darinya.

Natural Language Processing (NLP) in Python

Mengakses dan menghapus tanda baca

import string
print(string.punctuation)
!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~
text = "This is an example to demonstrate removing stop words."
tokens = word_tokenize(text)
filtered_tokens = [word for word in tokens if word.lower() not in stop_words]

clean_tokens = [word for word in filtered_tokens if word not in string.punctuation]
print(clean_tokens)
['example', 'demonstrate', 'removing', 'stop', 'words']
Natural Language Processing (NLP) in Python

Ayo berlatih!

Natural Language Processing (NLP) in Python

Preparing Video For Download...