AutoModels en Tokenizers

Werken met Hugging Face

Jacob H. Marquez

Lead Data Engineer

Pipelines: snel en simpel

from transformers import pipeline  

my_pipeline = pipeline(
    "text-classification",
    model="distilbert-base-uncased-finetuned-sst-2-english"))

print(my_pipeline("Wi-Fi is slower than a snail today!"))
[{'label': 'NEGATIVE', 'score': 0.99}]
Werken met Hugging Face

Auto-classes: flexibel en krachtig

$$

  • Auto-classes: Flexibele toegang tot modellen en tokenizers
  • Meer controle over modelgedrag en outputs
  • Perfect voor geavanceerde taken

$$

  • Pipelines = snel; Auto-classes = flexibel

Drie schuifregelaars met toggles en een hand die er een aanpast. Staat voor meer controle.

Werken met Hugging Face

AutoModels

  • Kies een AutoModel-klasse om direct een model te downloaden

$$

from transformers import AutoModelForSequenceClassification

# Download a pre-trained text classification model model = AutoModelForSequenceClassification.from_pretrained( "distilbert-base-uncased-finetuned-sst-2-english" )
Werken met Hugging Face

AutoTokenizers

  • Bereid tekstinvoer voor
  • Gebruik bij voorkeur de tokenizer die bij het model hoort

$$

from transformers import AutoTokenizer


# Retrieve the tokenizer paired with the model tokenizer = AutoTokenizer.from_pretrained( "distilbert-base-uncased-finetuned-sst-2-english" )
Werken met Hugging Face

Tekst tokenizen met AutoTokenizer

  • Tokenizers schonen invoer en splitsen tekst in tokens

$$

tokenizer = AutoTokenizer.from_pretrained("distilbert-base-uncased")

# Tokenize input text tokens = tokenizer.tokenize("AI: Helping robots think and humans overthink:)") print(tokens)
['ai', ':', 'helping', 'robots', 'think', 'and', 
 'humans', 'over', '##thi', '##nk', ':', ')']
Werken met Hugging Face

Andere modellen, andere tokenizers

  • Ons model (distilbert-base-uncased):

    ['ai', ':', 'helping', 'robots', 'think', 'and', 'humans', 'over', '##thi',
    '##nk', ':', ')']
    
  • BERT-Base-Cased Tokenizer:

    ['AI', ':', 'Help', '##ing', 'robots', 'think', 'and', 'humans', 'over',
    '##thin', '##k', ':', ')']
    
Werken met Hugging Face

Een pipeline bouwen met Auto-classes

from transformers import AutoModelForSequenceClassification,
AutoTokenizer, pipeline

# Download the model and tokenizer my_model = AutoModelForSequenceClassification.from_pretrained( "distilbert-base-uncased-finetuned-sst-2-english") my_tokenizer = AutoTokenizer.from_pretrained( "distilbert-base-uncased-finetuned-sst-2-english")
# Create the custom pipeline my_pipeline = pipeline( task="sentiment-analysis", model=my_model, tokenizer=my_tokenizer)
Werken met Hugging Face

Use-cases voor AutoModels en AutoTokenizers

$$

  • 🔧 Gebruik voor meer controle en maatwerk

  • 📝 Tekstvoorbewerking: Schoon en tokenize voor je use case

  • 🏆 Thresholding: Prioriteer hoofdklassen bij classificatie
  • 🚀 Complexe workflows: Stuur meerstapsverwerking en integratie

$$ Meer controle en maatwerk

Werken met Hugging Face

Laten we oefenen!

Werken met Hugging Face

Preparing Video For Download...