İnce ayara hazırlık

Python ile LLM'lere Giriş

Jasmin Ludolf

Senior Data Science Content Developer, DataCamp

Pipelines ve auto sınıfları

Pipelines: pipeline()

  • Görevleri basitleştirir
  • Model ve tokenizer'ı otomatik seçer
  • Sınırlı kontrol

Hugging Face Transformers'ın pipeline'ları

Auto sınıfları (AutoModel sınıfı)

  • Özelleştirme
  • Manuel ayarlamalar
  • İnce ayarı destekler

Hugging Face Transformers'ın özelleştirme seçeneklerini gösteren AutoModel sınıfı

Python ile LLM'lere Giriş

LLM yaşam döngüsü

Büyük dil modellerinin yaşam döngüsü

Ön eğitim

  • Geniş veri
  • Genel kalıpları öğrenir
Python ile LLM'lere Giriş

LLM yaşam döngüsü

Büyük dil modellerinin yaşam döngüsü

Ön eğitim                                                             İnce ayar

  • Geniş veri                                                          Alan odaklı
  • Genel kalıpları öğrenir                                       Uzmanlaşmış görevler
Python ile LLM'lere Giriş

İnce ayar için veri kümesi yükleme

from datasets import load_dataset


train_data = load_dataset("imdb", split="train")
train_data = data.shard(num_shards=4, index=0)
test_data = load_dataset("imdb", split="test")
test_data = data.shard(num_shards=4, index=0)
  • load_dataset(): Hugging Face hub'dan veri kümesi yükler
    • imdb: yorum sınıflandırma
Python ile LLM'lere Giriş

Auto sınıfları

from transformers import AutoModel, AutoTokenizer

from transformers import AutoModelForSequenceClassification
model = AutoModelForSequenceClassification.from_pretrained("bert-base-uncased") tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
Python ile LLM'lere Giriş

Tokenleştirme

from transformers import AutoTokenizer, AutoModelForSequenceClassification
from datasets import load_dataset

train_data = load_dataset("imdb", split="train")
train_data = data.shard(num_shards=4, index=0)
test_data = load_dataset("imdb", split="test")
test_data = data.shard(num_shards=4, index=0)

model = AutoModelForSequenceClassification.from_pretrained("bert-base-uncased")
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")


# Tokenize the data tokenized_training_data = tokenizer(train_data["text"], return_tensors="pt", padding=True, truncation=True, max_length=64) tokenized_test_data = tokenizer(test_data["text"], return_tensors="pt", padding=True, truncation=True, max_length=64)
Python ile LLM'lere Giriş

Tokenleştirme çıktısı

print(tokenized_training_data)
{'input_ids': tensor([[  101,  1045, 12524,  1045,  2572,  8025,  1011,  3756,  
2013,  2026, 2678,  3573,  2138,  1997,  2035,  1996,  6704,  2008,  5129,  2009, 
2043,  2009, 2001,  2034,  2207,  1999,  3476,  1012,  1045,  2036, ...
Python ile LLM'lere Giriş

Satır satır tokenleştirme

def tokenize_function(text_data):
    return tokenizer(text_data["text"], return_tensors="pt", padding=True, truncation=True, max_length=64)

# Tokenize in batches
tokenized_in_batches = train_data.map(tokenize_function, batched=True)

# Tokenize row by row tokenized_by_row = train_data.map(tokenize_function, batched=False)
Dataset({
    features: ['text', 'label', 'input_ids', 'token_type_ids', 'attention_mask'],
    num_rows: 1563
})
Python ile LLM'lere Giriş

Alt-birim tokenleştirme

  • Modern tokenizer'larda yaygın
  • Sözcükler anlamlı alt parçalara bölünür

 

Unbelievably

Python ile LLM'lere Giriş

Alt-birim tokenleştirme

  • Modern tokenizer'larda yaygın
  • Sözcükler anlamlı alt parçalara bölünür

 

Unbelievably, un, believ, ably olarak tokenleştirilmiş.

Python ile LLM'lere Giriş

Haydi pratik yapalım!

Python ile LLM'lere Giriş

Preparing Video For Download...