Otomatik Modeller ve Tokenizer’lar

Hugging Face ile Çalışmak

Jacob H. Marquez

Lead Data Engineer

Pipelines: hızlı ve basit

from transformers import pipeline  

my_pipeline = pipeline(
    "text-classification",
    model="distilbert-base-uncased-finetuned-sst-2-english"))

print(my_pipeline("Wi-Fi is slower than a snail today!"))

[{'label': 'NEGATIVE', 'score': 0.99}]

Auto Sınıfları: esnek ve güçlü

Auto sınıfları: Modeller ve tokenizer’lara esnek erişim
Model davranışı ve çıktıları üzerinde daha fazla kontrol
İleri görevler için ideal

Pipelines = hızlı; Auto sınıfları = esnek

Üç kaydırma çubuğu ve birini ayarlayan el. Daha fazla kontrolü temsil eder.

AutoModel’ler

Bir modeli doğrudan indirmek için bir AutoModel sınıfı seçin

from transformers import AutoModelForSequenceClassification


# Önceden eğitilmiş bir metin sınıflandırma modelini indir
model = AutoModelForSequenceClassification.from_pretrained(
    "distilbert-base-uncased-finetuned-sst-2-english"
)

AutoTokenizer’lar

Metin girdi verisini hazırlayın
Modelle eşleşen tokenizer’ı kullanmanız önerilir

from transformers import AutoTokenizer


# Modelle eşleşen tokenizer’ı alın
tokenizer = AutoTokenizer.from_pretrained(
    "distilbert-base-uncased-finetuned-sst-2-english"
)

AutoTokenizer ile metin tokenleştirme

Tokenizer’lar girdiyi temizler ve metni token’lara böler

tokenizer = AutoTokenizer.from_pretrained("distilbert-base-uncased")


# Girdi metnini tokenize et
tokens = tokenizer.tokenize("AI: Helping robots think and humans overthink:)")
print(tokens)

['ai', ':', 'helping', 'robots', 'think', 'and', 
 'humans', 'over', '##thi', '##nk', ':', ')']

Farklı modeller, farklı tokenizer’lar

Modelimiz (distilbert-base-uncased):

['ai', ':', 'helping', 'robots', 'think', 'and', 'humans', 'over', '##thi',
'##nk', ':', ')']

BERT-Base-Cased Tokenizer:

['AI', ':', 'Help', '##ing', 'robots', 'think', 'and', 'humans', 'over',
'##thin', '##k', ':', ')']

Auto Sınıfları ile Pipeline oluşturma

from transformers import AutoModelForSequenceClassification,
AutoTokenizer, pipeline


# Model ve tokenizer’ı indir
my_model = AutoModelForSequenceClassification.from_pretrained(
  "distilbert-base-uncased-finetuned-sst-2-english")
my_tokenizer = AutoTokenizer.from_pretrained(
  "distilbert-base-uncased-finetuned-sst-2-english")


# Özel pipeline oluştur
my_pipeline = pipeline(
  task="sentiment-analysis", model=my_model, tokenizer=my_tokenizer)

AutoModel ve AutoTokenizer kullanım alanları

🔧 Daha fazla kontrol ve özelleştirme için kullanın
📝 Metin ön işleme: Belirli kullanım durumları için temizleyin ve tokenize edin
🏆 Eşikleme: Sınıflandırmada ana kategorilere öncelik verin
🚀 Karmaşık iş akışları: Çok aşamalı süreç ve entegrasyonu yönetin

$$ Daha fazla kontrol ve özelleştirme

Hadi pratik yapalım!

Hugging Face ile Çalışmak