Pengantar pemrosesan bahasa alami

Natural Language Processing (NLP) in Python

Fouad Trad

Machine Learning Engineer

Kenali instruktur...

 

Foto instruktur.

 

Fouad Trad

  • Insinyur machine learning
  • Ilmuwan riset
  • NLP di keamanan siber dan kesehatan
Natural Language Processing (NLP) in Python

Apa itu NLP?

 

 

  • Bahasa adalah cara utama kita berkomunikasi
  • Komputer tidak memahami bahasa kita

Gambar menunjukkan tempat bahasa berada: buku, situs web, posting media sosial, dan email.

Natural Language Processing (NLP) in Python

Apa itu NLP?

Memungkinkan komputer menganalisis bahasa manusia

Gambar menunjukkan seseorang berbicara ke mesin dan pemrosesan bahasa alami menerjemahkan agar mesin memahami.

Natural Language Processing (NLP) in Python

Alur kerja NLP

Langkah pertama alur kerja: teks mentah.

  • Teks mentah: apa pun, dari tweet hingga paragraf buku
Natural Language Processing (NLP) in Python

Alur kerja NLP

Langkah kedua alur kerja: prapemrosesan

  • Teks mentah: apa pun, dari tweet hingga paragraf buku
  • Prapemrosesan: membersihkan teks dan membuang elemen yang tidak perlu
Natural Language Processing (NLP) in Python

Alur kerja NLP

Langkah ketiga alur kerja: ekstraksi fitur.

  • Teks mentah: apa pun, dari tweet hingga paragraf buku
  • Prapemrosesan: membersihkan teks dan membuang elemen yang tidak perlu
  • Ekstraksi fitur: mengubah teks menjadi angka
Natural Language Processing (NLP) in Python

Alur kerja NLP

Langkah keempat alur kerja: Pemodelan

  • Teks mentah: apa pun, dari tweet hingga paragraf buku
  • Prapemrosesan: membersihkan teks dan membuang elemen yang tidak perlu
  • Ekstraksi fitur: mengubah teks menjadi angka
  • Model: menganalisis, memprediksi, mengklasifikasi, menghasilkan konten baru
Natural Language Processing (NLP) in Python

Rencana kursus

Diagram alur lengkap yang menyebutkan bahwa Bab 1 membahas prapemrosesan dengan NLTK

Natural Language Processing (NLP) in Python

Rencana kursus

Diagram alur lengkap yang menyebutkan bahwa Bab 2 membahas ekstraksi fitur menggunakan scikit-learn dan Gensim.

Natural Language Processing (NLP) in Python

Rencana kursus

Diagram alur lengkap yang menyebutkan bahwa Bab 3 dan 4 membahas pipeline yang menyembunyikan tiga langkah: prapemrosesan, ekstraksi fitur, dan pemodelan menggunakan pustaka transformers.

Natural Language Processing (NLP) in Python

Tokenisasi

  • Memecah teks menjadi token (bagian kecil yang mudah diolah)

Gambar menunjukkan orang memotong wortel

Natural Language Processing (NLP) in Python

Tokenisasi kalimat

  • Teks → kalimat
  • Lebih jelas daripada menganalisis teks sebagai satu kesatuan
import nltk

nltk.download('punkt_tab')
text = "NLP is fun. Let's dive into it!"
sentences = nltk.sent_tokenize(text)
print(sentences)
["NLP is fun.", "Let's dive into it!"]

Gambar menampilkan ikon yang merepresentasikan terjemahan.

Natural Language Processing (NLP) in Python

Tokenisasi kata

  • Teks → kata dan tanda baca
  • Berguna untuk tugas seperti:
    • Mengidentifikasi istilah kunci
    • Menghitung frekuensi kata
text = "Claim your free prize now!"

words = nltk.word_tokenize(text)
print(words)
['Claim', 'your', 'free', 'prize', 'now', '!']

Gambar menampilkan ikon email spam.

Natural Language Processing (NLP) in Python

Ayo berlatih!

Natural Language Processing (NLP) in Python

Preparing Video For Download...