AutoModels and Tokenizer

Arbeiten mit Hugging Face

Jacob H. Marquez

Lead Data Engineer

Pipelines: schnell und einfach

from transformers import pipeline  

my_pipeline = pipeline(
    "text-classification",
    model="distilbert-base-uncased-finetuned-sst-2-english"))

print(my_pipeline("Wi-Fi is slower than a snail today!"))

[{'label': 'NEGATIVE', 'score': 0.99}]

Autoklassen: flexibel und praktisch

Autoklassen: flexibler Zugriff auf Modelle und Tokenizer
Mehr Kontrolle über das Verhalten und die Ergebnisse des Modells
Perfekt für anspruchsvolle Aufgaben

Pipelines = schnell; Autoklassen = flexibel

Three slider bars with toggles and a hand adjusting one of them. Mehr Kontrolle.

AutoModels

AutoModel-Klasse auswählen, um Modell direkt herunterzuladen

from transformers import AutoModelForSequenceClassification


# Download a pre-trained text classification model
model = AutoModelForSequenceClassification.from_pretrained(
    "distilbert-base-uncased-finetuned-sst-2-english"
)

AutoTokenizer

Text vorbereiten
Empfehlung: Tokenizer passend zum jeweiligen Modell verwenden

from transformers import AutoTokenizer


# Retrieve the tokenizer paired with the model
tokenizer = AutoTokenizer.from_pretrained(
    "distilbert-base-uncased-finetuned-sst-2-english"
)

Text mit AutoTokenizer tokenisieren

Tokenizer bereinigen Eingaben und teilen Text in Tokens auf.

tokenizer = AutoTokenizer.from_pretrained("distilbert-base-uncased")


# Tokenize input text
tokens = tokenizer.tokenize("AI: Helping robots think and humans overthink:)")
print(tokens)

['ai', ':', 'helping', 'robots', 'think', 'and', 
 'humans', 'over', '##thi', '##nk', ':', ')']

Verschiedene Modelle, verschiedene Tokenizer

Unser Modell (distilbert-base-uncased):

['ai', ':', 'helping', 'robots', 'think', 'and', 'humans', 'over', '##thi',
'##nk', ':', ')']

BERT-Base-Cased Tokenizer:

['AI', ':', 'Help', '##ing', 'robots', 'think', 'and', 'humans', 'over',
'##thin', '##k', ':', ')']

Pipeline mit Autoklassen erstellen

from transformers import AutoModelForSequenceClassification,
AutoTokenizer, pipeline


# Download the model and tokenizer
my_model = AutoModelForSequenceClassification.from_pretrained(
  "distilbert-base-uncased-finetuned-sst-2-english")
my_tokenizer = AutoTokenizer.from_pretrained(
  "distilbert-base-uncased-finetuned-sst-2-english")


# Create the custom pipeline
my_pipeline = pipeline(
  task="sentiment-analysis", model=my_model, tokenizer=my_tokenizer)

Anwendungsfälle für AutoModels und AutoTokenizer

🔧 Für mehr Kontrolle und Anpassungsmöglichkeiten
📝 Textvorverarbeitung: für bestimmte Anwendungsfälle bereinigen und tokenisieren
🏆 Thresholding: Priorisieren wichtiger Kategorien bei Klassifizierungsaufgaben
🚀 Komplexe Workflows: Steuerung der mehrstufigen Verarbeitung und Integration

$$ Mehr Kontrolle und Anpassungsmöglichkeiten

Lass uns üben!

Arbeiten mit Hugging Face