Gambaran umum NLP

Konsep Large Language Models (LLM)

Vidhi Chugh

AI strategist and ethicist

Kita ada di mana?

Bagan progres menunjukkan langkah pertama yaitu prapemrosesan teks

Konsep Large Language Models (LLM)

Prapemrosesan teks

  • Dapat dilakukan dalam urutan berbeda karena saling independen

Tiga langkah paling umum untuk prapemrosesan teks

Konsep Large Language Models (LLM)

Tokenisasi

  • Memecah teks menjadi kata-kata, atau token

 

  • Teks:

    • "Working with natural language processing techniques is tricky."

     

  • Tokenisasi:

    • ["Working", "with", "natural", "language", "processing", "techniques", "is", "tricky", "."]
    • Diubah menjadi daftar
Konsep Large Language Models (LLM)

Penghapusan stop word

  • Stop word tidak menambah makna
  • Dihilangkan melalui penghapusan stop word

 

  • Sebelum penghapusan stop word:
    • ["Working", "with", "natural", "language", "processing", "techniques", "is", "challenging", "."]

 

  • Sesudah penghapusan stop word:
    • ["Working", "natural", "language", "processing", "techniques", "challenging", "."]
Konsep Large Language Models (LLM)

Lematisasi

 

  • Mengelompokkan kata yang mirip makna

 

  • Mengurangi kata ke bentuk dasar

 

  • Dipetakan ke kata akar

 

  • Talking -> Talk

  • Talked -> Talk

  • Talk -> Talk

Konsep Large Language Models (LLM)

Representasi teks

Bagan progres menunjukkan kita telah mencapai tahap representasi teks

Konsep Large Language Models (LLM)

Representasi teks

 

  • Data teks ke bentuk numerik

 

  • Bag-of-words
  • Word embeddings

Gambar yang menggambarkan ucapan sebagai angka

Konsep Large Language Models (LLM)

Bag-of-words

 

  • Teks menjadi matriks jumlah kata

Matriks dengan representasi bag-of-words

  • 0 menyatakan kata tidak muncul
Konsep Large Language Models (LLM)

Keterbatasan bag-of-words

  • Tidak menangkap urutan atau konteks

    • Dapat menimbulkan tafsir keliru
    • Kalimat mirip tapi makna berlawanan
      • "The cat chased the mouse swiftly."
      • "The mouse chased the cat."
  • Tidak menangkap semantik antarkata

    • Menganggap kata terkait sebagai independen
    • Seperti "cat" dan "mouse"
Konsep Large Language Models (LLM)

Word embeddings

  • Menangkap makna semantik sebagai angka

 

Cat Mouse
Plant -0.9 -0.8
Furry 0.9 0.7
Carnivore 0.9 -0.8

 

  • Cat [-0.9, 0.9, 0.9]
  • Relasi predator-mangsa:

Word embeddings untuk predator-mangsa

Konsep Large Language Models (LLM)

Bentuk yang dapat dibaca mesin

 

  • Mulai dengan prapemrosesan teks

Alur kerja persiapan data

Konsep Large Language Models (LLM)

Bentuk yang dapat dibaca mesin

 

  • Ubah teks yang sudah dipraproses ke format numerik

Alur persiapan data dengan langkah representasi teks

Konsep Large Language Models (LLM)

Ayo berlatih!

Konsep Large Language Models (LLM)

Preparing Video For Download...