Otomatik Modeller ve Tokenizer’lar

Hugging Face ile Çalışmak

Jacob H. Marquez

Lead Data Engineer

Pipelines: hızlı ve basit

from transformers import pipeline  

my_pipeline = pipeline(
    "text-classification",
    model="distilbert-base-uncased-finetuned-sst-2-english"))

print(my_pipeline("Wi-Fi is slower than a snail today!"))
[{'label': 'NEGATIVE', 'score': 0.99}]
Hugging Face ile Çalışmak

Auto Sınıfları: esnek ve güçlü

$$

  • Auto sınıfları: Modeller ve tokenizer’lara esnek erişim
  • Model davranışı ve çıktıları üzerinde daha fazla kontrol
  • İleri görevler için ideal

$$

  • Pipelines = hızlı; Auto sınıfları = esnek

Üç kaydırma çubuğu ve birini ayarlayan el. Daha fazla kontrolü temsil eder.

Hugging Face ile Çalışmak

AutoModel’ler

  • Bir modeli doğrudan indirmek için bir AutoModel sınıfı seçin

$$

from transformers import AutoModelForSequenceClassification

# Önceden eğitilmiş bir metin sınıflandırma modelini indir model = AutoModelForSequenceClassification.from_pretrained( "distilbert-base-uncased-finetuned-sst-2-english" )
Hugging Face ile Çalışmak

AutoTokenizer’lar

  • Metin girdi verisini hazırlayın
  • Modelle eşleşen tokenizer’ı kullanmanız önerilir

$$

from transformers import AutoTokenizer


# Modelle eşleşen tokenizer’ı alın tokenizer = AutoTokenizer.from_pretrained( "distilbert-base-uncased-finetuned-sst-2-english" )
Hugging Face ile Çalışmak

AutoTokenizer ile metin tokenleştirme

  • Tokenizer’lar girdiyi temizler ve metni token’lara böler

$$

tokenizer = AutoTokenizer.from_pretrained("distilbert-base-uncased")

# Girdi metnini tokenize et tokens = tokenizer.tokenize("AI: Helping robots think and humans overthink:)") print(tokens)
['ai', ':', 'helping', 'robots', 'think', 'and', 
 'humans', 'over', '##thi', '##nk', ':', ')']
Hugging Face ile Çalışmak

Farklı modeller, farklı tokenizer’lar

  • Modelimiz (distilbert-base-uncased):

    ['ai', ':', 'helping', 'robots', 'think', 'and', 'humans', 'over', '##thi',
    '##nk', ':', ')']
    
  • BERT-Base-Cased Tokenizer:

    ['AI', ':', 'Help', '##ing', 'robots', 'think', 'and', 'humans', 'over',
    '##thin', '##k', ':', ')']
    
Hugging Face ile Çalışmak

Auto Sınıfları ile Pipeline oluşturma

from transformers import AutoModelForSequenceClassification,
AutoTokenizer, pipeline

# Model ve tokenizer’ı indir my_model = AutoModelForSequenceClassification.from_pretrained( "distilbert-base-uncased-finetuned-sst-2-english") my_tokenizer = AutoTokenizer.from_pretrained( "distilbert-base-uncased-finetuned-sst-2-english")
# Özel pipeline oluştur my_pipeline = pipeline( task="sentiment-analysis", model=my_model, tokenizer=my_tokenizer)
Hugging Face ile Çalışmak

AutoModel ve AutoTokenizer kullanım alanları

$$

  • 🔧 Daha fazla kontrol ve özelleştirme için kullanın

  • 📝 Metin ön işleme: Belirli kullanım durumları için temizleyin ve tokenize edin

  • 🏆 Eşikleme: Sınıflandırmada ana kategorilere öncelik verin
  • 🚀 Karmaşık iş akışları: Çok aşamalı süreç ve entegrasyonu yönetin

$$ Daha fazla kontrol ve özelleştirme

Hugging Face ile Çalışmak

Hadi pratik yapalım!

Hugging Face ile Çalışmak

Preparing Video For Download...