NLP’ye genel bakış

Large Language Models (LLMs) Kavramları

Vidhi Chugh

AI strategist and ethicist

Neredeyiz?

İlk adım olan metin ön işleme gösteren ilerleme grafiği

Large Language Models (LLMs) Kavramları

Metin ön işleme

  • Bağımsız oldukları için farklı sırada yapılabilir

Metin ön işlemenin en yaygın üç adımı

Large Language Models (LLMs) Kavramları

Tokenizasyon

  • Metni tek tek kelimelere, yani token’lara böler

 

  • Metin:

    • "Working with natural language processing techniques is tricky."

     

  • Tokenizasyon:

    • ["Working", "with", "natural", "language", "processing", "techniques", "is", "tricky", "."]
    • Listeye dönüştürür
Large Language Models (LLMs) Kavramları

Stop word kaldırma

  • Stop words anlam katmaz
  • Stop word kaldırma ile ayıklanır

 

  • Önce stop word kaldırma:
    • ["Working", "with", "natural", "language", "processing", "techniques", "is", "challenging", "."]

 

  • Sonra stop word kaldırma:
    • ["Working", "natural", "language", "processing", "techniques", "challenging", "."]
Large Language Models (LLMs) Kavramları

Lemmatizasyon

 

  • Benzer anlamlı, az farklı kelimeleri gruplar

 

  • Kelimeleri temel biçimine indirger

 

  • Kök forma eşler

 

  • Talking -> Talk

  • Talked -> Talk

  • Talk -> Talk

Large Language Models (LLMs) Kavramları

Metin gösterimi

Metin gösterimine ulaşıldığını gösteren ilerleme grafiği

Large Language Models (LLMs) Kavramları

Metin gösterimi

 

  • Metni sayısal biçime çevirme

 

  • Kelime torbası
  • Kelime gömme yöntemleri

Sesi sayılar olarak betimleyen görsel

Large Language Models (LLMs) Kavramları

Kelime torbası (Bag-of-words)

 

  • Metni kelime sayımı matrisine dönüştürme

Kelime torbası gösterimli bir matris

  • 0, bir kelimenin yokluğunu gösterir
Large Language Models (LLMs) Kavramları

Kelime torbasının sınırlamaları

  • Sıra ve bağlamı yakalamaz

    • Yanlış yorumlara yol açabilir
    • Benzer cümleler, zıt anlamlar
      • "The cat chased the mouse swiftly."
      • "The mouse chased the cat."
  • Sözcükler arası anlamsal ilişkileri yakalamaz

    • İlişkili kelimeleri bağımsız sayar
    • Örn. "cat" ve "mouse"
Large Language Models (LLMs) Kavramları

Kelime gömmeleri

  • Anlamsal bilgileri sayılarla yakalar

 

Cat Mouse
Plant -0.9 -0.8
Furry 0.9 0.7
Carnivore 0.9 -0.8

 

  • Cat [-0.9, 0.9, 0.9]
  • Avcı-av ilişkisi:

Avcı-av kelime gömmeleri

Large Language Models (LLMs) Kavramları

Makinece okunabilir biçim

 

  • Metin ön işlemeden başlayın

Veri hazırlama iş akışı

Large Language Models (LLMs) Kavramları

Makinece okunabilir biçim

 

  • Ön işlenmiş metni sayısal formata çevirin

Metin gösterim adımları olan veri hazırlama iş akışı

Large Language Models (LLMs) Kavramları

Hadi pratik yapalım!

Large Language Models (LLMs) Kavramları

Preparing Video For Download...