Auto Model dan Tokenizer

Bekerja dengan Hugging Face

Jacob H. Marquez

Lead Data Engineer

Pipeline: cepat dan sederhana

from transformers import pipeline  

my_pipeline = pipeline(
    "text-classification",
    model="distilbert-base-uncased-finetuned-sst-2-english"))

print(my_pipeline("Wi-Fi is slower than a snail today!"))
[{'label': 'NEGATIVE', 'score': 0.99}]
Bekerja dengan Hugging Face

Auto Classes: fleksibel dan kuat

$$

  • Auto classes: Akses fleksibel ke model dan tokenizer
  • Kontrol lebih atas perilaku dan keluaran model
  • Cocok untuk tugas lanjutan

$$

  • Pipeline = cepat; Auto classes = fleksibel

Tiga bilah penggeser dengan tombol dan tangan yang menyesuaikan salah satunya. Melambangkan lebih banyak kontrol.

Bekerja dengan Hugging Face

AutoModel

  • Pilih kelas AutoModel untuk mengunduh model langsung

$$

from transformers import AutoModelForSequenceClassification

# Unduh model klasifikasi teks terlatih awal model = AutoModelForSequenceClassification.from_pretrained( "distilbert-base-uncased-finetuned-sst-2-english" )
Bekerja dengan Hugging Face

AutoTokenizer

  • Siapkan data teks input
  • Disarankan pakai tokenizer yang dipasangkan dengan model

$$

from transformers import AutoTokenizer


# Ambil tokenizer yang dipasangkan dengan model tokenizer = AutoTokenizer.from_pretrained( "distilbert-base-uncased-finetuned-sst-2-english" )
Bekerja dengan Hugging Face

Tokenisasi teks dengan AutoTokenizer

  • Tokenizer membersihkan input dan memecah teks menjadi token

$$

tokenizer = AutoTokenizer.from_pretrained("distilbert-base-uncased")

# Tokenisasi teks input tokens = tokenizer.tokenize("AI: Helping robots think and humans overthink:)") print(tokens)
['ai', ':', 'helping', 'robots', 'think', 'and', 
 'humans', 'over', '##thi', '##nk', ':', ')']
Bekerja dengan Hugging Face

Model berbeda, tokenizer berbeda

  • Model kita (distilbert-base-uncased):

    ['ai', ':', 'helping', 'robots', 'think', 'and', 'humans', 'over', '##thi',
    '##nk', ':', ')']
    
  • Tokenizer BERT-Base-Cased:

    ['AI', ':', 'Help', '##ing', 'robots', 'think', 'and', 'humans', 'over',
    '##thin', '##k', ':', ')']
    
Bekerja dengan Hugging Face

Membangun Pipeline dengan Auto Classes

from transformers import AutoModelForSequenceClassification,
AutoTokenizer, pipeline

# Unduh model dan tokenizer my_model = AutoModelForSequenceClassification.from_pretrained( "distilbert-base-uncased-finetuned-sst-2-english") my_tokenizer = AutoTokenizer.from_pretrained( "distilbert-base-uncased-finetuned-sst-2-english")
# Buat pipeline kustom my_pipeline = pipeline( task="sentiment-analysis", model=my_model, tokenizer=my_tokenizer)
Bekerja dengan Hugging Face

Kasus penggunaan AutoModel dan AutoTokenizer

$$

  • 🔧 Gunakan untuk kontrol dan kustomisasi lebih lanjut

  • 📝 Prapemrosesan Teks: Bersihkan dan tokenisasi untuk kasus spesifik

  • 🏆 Thresholding: Prioritaskan kategori utama pada klasifikasi
  • 🚀 Alur kerja kompleks: Kendalikan pemrosesan multi-tahap dan integrasi

$$ Kontrol dan kustomisasi lebih lanjut

Bekerja dengan Hugging Face

Ayo berlatih!

Bekerja dengan Hugging Face

Preparing Video For Download...