Voorgetrainde LLM’s gebruiken

Introductie tot LLM’s in Python

Jasmin Ludolf

Senior Data Science Content Developer, DataCamp

Taalbegrip

Persoon aan een bureau met taken eromheen: tekstanalyse, samenvatten, sentimentanalyse en vraag-antwoord

Introductie tot LLM’s in Python

Taalgeneratie

Persoon aan een bureau met taken eromheen: tekstgeneratie en vertaling

Introductie tot LLM’s in Python

Tekstgeneratie

generator = pipeline(task="text-generation", model="distilgpt2")

prompt = "The Gion neighborhood in Kyoto is famous for"

output = generator(prompt, max_length=100, pad_token_id=generator.tokenizer.eos_token_id)
  • Coherent
  • Betekenisvol
  • Menselijk klinkende tekst
  • eos_token_id: ID van einde-van-sequentie-token
Introductie tot LLM’s in Python

Tekstgeneratie

Illustratie van twee sequenties: we should go, i really like to travel. Met token-id’s en waar padding en EOS staan

  • pad_token_id: vult ruimte op tot max_length
  • Padding: tokens toevoegen
  • Instellen op generator.tokenizer.eos_token_id markeert het einde van zinvolle tekst, geleerd tijdens training
  • Model genereert tot max_length of pad_token_id
  • truncation = True
Introductie tot LLM’s in Python

Tekstgeneratie

generator = pipeline(task="text-generation", model="distilgpt2")

prompt = "The Gion neighborhood in Kyoto is famous for"

output = generator(prompt, max_length=100, pad_token_id=generator.tokenizer.eos_token_id)

print(output[0]["generated_text"])
The Gion neighborhood in Kyoto is famous for its many colorful green forests, such as the 
Red Hill, the Red River and the Red River. The Gion neighborhood is home to the world's 
tallest trees.
  • Output kan suboptimaal zijn als de prompt vaag is
Introductie tot LLM’s in Python

De output sturen

generator = pipeline(task="text-generation", model="distilgpt2")


review = "This book was great. I enjoyed the plot twist in Chapter 10." response = "Dear reader, thank you for your review." prompt = f"Book review:\n{review}\n\nBook shop response to the review:\n{response}"
output = generator(prompt, max_length=100, pad_token_id=generator.tokenizer.eos_token_id) print(output[0]["generated_text"])
Dear reader, thank you for your review. We'd like to thank you for your reading!
Introductie tot LLM’s in Python

Taalvertaling

  • Hugging Face heeft een complete lijst met vertaaltaken en modellen
translator = pipeline(task="translation_en_to_es", model="Helsinki-NLP/opus-mt-en-es")

text = "Walking amid Gion's Machiya wooden houses was a mesmerizing experience."
output = translator(text, clean_up_tokenization_spaces=True)
print(output[0]["translation_text"])
Caminar entre las casas de madera Machiya de Gion fue una experiencia fascinante.
Introductie tot LLM’s in Python

Laten we oefenen!

Introductie tot LLM’s in Python

Preparing Video For Download...