Algemeen overzicht van NLP

Concepten van Large Language Models (LLMs)

Vidhi Chugh

AI strategist and ethicist

Waar staan we?

Voortgangsgrafiek met de eerste stap: tekstvoorbewerking

Concepten van Large Language Models (LLMs)

Tekstvoorbewerking

  • Kunnen in andere volgorde, ze zijn onafhankelijk

Drie meest voorkomende stappen voor tekstvoorbewerking

Concepten van Large Language Models (LLMs)

Tokenization

  • Splitst tekst in losse woorden, of tokens

 

  • Tekst:

    • "Working with natural language processing techniques is tricky."

     

  • Tokenization:

    • ["Working", "with", "natural", "language", "processing", "techniques", "is", "tricky", "."]
    • Zet om naar een lijst
Concepten van Large Language Models (LLMs)

Stopwoordverwijdering

  • Stopwoorden voegen geen betekenis toe
  • Verwijderd via stopwoordverwijdering

 

  • Voor stopwoordverwijdering:
    • ["Working", "with", "natural", "language", "processing", "techniques", "is", "challenging", "."]

 

  • Na stopwoordverwijdering:
    • ["Working", "natural", "language", "processing", "techniques", "challenging", "."]
Concepten van Large Language Models (LLMs)

Lemmatization

 

  • Groepeert licht verschillende woorden met soortgelijke betekenis

 

  • Reduceert woorden tot hun basisvorm

 

  • Toegewezen aan de stam

 

  • Talking -> Talk

  • Talked -> Talk

  • Talk -> Talk

Concepten van Large Language Models (LLMs)

Tekstrepresentatie

Voortgangsgrafiek die laat zien dat we bij de tekstrepresentatie zijn

Concepten van Large Language Models (LLMs)

Tekstrepresentatie

 

  • Tekstgegevens naar numerieke vorm

 

  • Bag-of-words
  • Woordinbeddingen

Afbeelding die spraak als getallen weergeeft

Concepten van Large Language Models (LLMs)

Bag-of-words

 

  • Tekst naar een matrix met woordtellingen

Een matrix met een bag-of-words-representatie

  • 0 betekent dat een woord ontbreekt
Concepten van Large Language Models (LLMs)

Beperkingen van bag-of-words

  • Legt volgorde of context niet vast

    • Kan tot verkeerde interpretaties leiden
    • Vergelijkbare zinnen maar tegengestelde betekenis
      • "The cat chased the mouse swiftly."
      • "The mouse chased the cat."
  • Legt semantiek tussen woorden niet vast

    • Behandelt gerelateerde woorden als onafhankelijk
    • Zoals "cat" en "mouse"
Concepten van Large Language Models (LLMs)

Woordinbeddingen

  • Vangen semantische betekenissen in getallen

 

Cat Mouse
Plant -0.9 -0.8
Furry 0.9 0.7
Carnivore 0.9 -0.8

 

  • Cat [-0.9, 0.9, 0.9]
  • Predator-prooirelatie:

Woordinbeddingen voor predator-prooi

Concepten van Large Language Models (LLMs)

Machineleesbare vorm

 

  • Begin met tekstvoorbewerking

Workflow voor datavoorbereiding

Concepten van Large Language Models (LLMs)

Machineleesbare vorm

 

  • Zet voorbewerkte tekst om naar numeriek formaat

Workflow voor datavoorbereiding met tekstrepresentatie-stappen

Concepten van Large Language Models (LLMs)

Laten we oefenen!

Concepten van Large Language Models (LLMs)

Preparing Video For Download...