Dasar-dasar Natural Language Processing (NLP)

Pemrosesan Bahasa Alami dengan spaCy

Azadeh Mobasher

Principal Data Scientist

Natural Language Processing (NLP)

Subbidang Kecerdasan Buatan (AI)
Membantu komputer memahami bahasa manusia
Membantu mengekstrak insight dari data tidak terstruktur
Menggabungkan statistika, model pembelajaran mesin, dan model pembelajaran mendalam

NLP, subbidang AI

Analisis sentimen

Contoh analisis sentimen

Named entity recognition (NER)

Menemukan dan mengklasifikasikan entitas bernama pada teks tidak terstruktur ke dalam kategori pradefinisi
Entitas bernama adalah objek dunia nyata seperti orang atau lokasi

Contoh NER

Chatbot

spaCy adalah pustaka gratis, open-source untuk NLP di Python yang:

spaCy dan NLP

$ python3 pip install spacy

python3 -m spacy download en_core_web_sm
import spacy
nlp = spacy.load("en_core_web_sm")

Model spaCy en_core_web_sm dimuat sebagai objek nlp
Objek nlp mengonversi teks menjadi objek Doc (wadah) untuk menyimpan teks terproses

Pemrosesan teks dengan spaCy

import spacy
nlp = spacy.load("en_core_web_sm")
text = "A spaCy pipeline object is created."
doc = nlp(text)

Tokenisasi
- Token adalah bagian terkecil yang bermakna dari teks.
- Tokenisasi: proses membagi teks menjadi daftar token bermakna

print([token.text for token in doc])

['A', 'spaCy', 'pipeline', 'object', 'is', 'created', '.']

Pemrosesan Bahasa Alami dengan spaCy