Uso de LLM preentrenados

Introducción a los LLMs en Python

Jasmin Ludolf

Senior Data Science Content Developer, DataCamp

Comprensión del lenguaje

Persona sentada en un escritorio con varias tareas a su alrededor que ilustran clasificación de texto, resumen, análisis de sentimiento y preguntas y respuestas

Introducción a los LLMs en Python

Generación de lenguaje

Persona sentada en un escritorio con varias tareas a su alrededor que ilustran generación y traducción de texto

Introducción a los LLMs en Python

Generación de texto

generator = pipeline(task="text-generation", model="distilgpt2")

prompt = "The Gion neighborhood in Kyoto is famous for"

output = generator(prompt, max_length=100, pad_token_id=generator.tokenizer.eos_token_id)
  • Coherente
  • Con sentido
  • Texto similar al humano
  • eos_token_id: ID del token de fin de secuencia
Introducción a los LLMs en Python

Generación de texto

Ilustración de dos secuencias: we should go, i really like to travel. Incluye IDs de tokens y muestra dónde hay padding y EOS

  • pad_token_id: rellena hasta max_length
  • Padding: añadir tokens
  • Ajustarlo a generator.tokenizer.eos_token_id marca el fin del texto útil, aprendido en el entrenamiento
  • El modelo genera hasta max_length o pad_token_id
  • truncation = True
Introducción a los LLMs en Python

Generación de texto

generator = pipeline(task="text-generation", model="distilgpt2")

prompt = "The Gion neighborhood in Kyoto is famous for"

output = generator(prompt, max_length=100, pad_token_id=generator.tokenizer.eos_token_id)

print(output[0]["generated_text"])
The Gion neighborhood in Kyoto is famous for its many colorful green forests, such as the 
Red Hill, the Red River and the Red River. The Gion neighborhood is home to the world's 
tallest trees.
  • La salida puede ser subóptima si el prompt es vago
Introducción a los LLMs en Python

Guiar la salida

generator = pipeline(task="text-generation", model="distilgpt2")


review = "This book was great. I enjoyed the plot twist in Chapter 10." response = "Dear reader, thank you for your review." prompt = f"Book review:\n{review}\n\nBook shop response to the review:\n{response}"
output = generator(prompt, max_length=100, pad_token_id=generator.tokenizer.eos_token_id) print(output[0]["generated_text"])
Dear reader, thank you for your review. We'd like to thank you for your reading!
Introducción a los LLMs en Python

Traducción automática

  • Hugging Face tiene una lista completa de tareas y modelos de traducción
translator = pipeline(task="translation_en_to_es", model="Helsinki-NLP/opus-mt-en-es")

text = "Walking amid Gion's Machiya wooden houses was a mesmerizing experience."
output = translator(text, clean_up_tokenization_spaces=True)
print(output[0]["translation_text"])
Caminar entre las casas de madera Machiya de Gion fue una experiencia fascinante.
Introducción a los LLMs en Python

¡Vamos a practicar!

Introducción a los LLMs en Python

Preparing Video For Download...