Metin için ön işleme giriş

PyTorch ile Metin için Deep Learning

Shubham Jain

Data Scientist

Neler öğreneceğiz

  • Metin sınıflandırma
  • Metin üretimi
  • Kodlama
  • Metin için derin öğrenme modelleri
  • Transformer mimarisi
  • Modelleri koruma

Kullanım alanları:

  • Duygu analizi
  • Metin özetleme
  • Makine çevirisi

Duygu Analizi

PyTorch ile Metin için Deep Learning

Bilmeniz gerekenler

Önkoşul kurs: Intermediate Deep Learning with PyTorch

  • PyTorch ile derin öğrenme modelleri
  • Eğitim ve değerlendirme döngüleri
  • Evrişimsel sinir ağları (CNN) ve yinelemeli sinir ağları (RNN)
PyTorch ile Metin için Deep Learning

Metin işleme hattı

 

 

Pytorch İşleme Hattı

PyTorch ile Metin için Deep Learning

Metin işleme hattı

 

 

Pytorch İşleme Hattı

 

  • Metni temizleyin ve hazırlayın
PyTorch ile Metin için Deep Learning

PyTorch ve NLTK

PyTorch Logosu

NLTK Logosu

  • Natural Language Toolkit
    • Ham metni işlenmiş metne dönüştürür
PyTorch ile Metin için Deep Learning

Ön işleme teknikleri

  • Tokenizasyon
  • Stop sözcük kaldırma
  • Kök bulma (stemming)
  • Nadir sözcük kaldırma
PyTorch ile Metin için Deep Learning

Tokenizasyon

  • Metinden tokenlar veya sözcükler çıkarılır
  • torchtext ile tokenizasyon
from torchtext.data.utils import get_tokenizer

tokenizer = get_tokenizer("basic_english")
tokens = tokenizer("I am reading a book now. I love to read books!") print(tokens)
["I", "am", "reading", "a", "book", "now", ".", "I", "love", "to", "read", 
"books", "!"]
PyTorch ile Metin için Deep Learning

Stop sözcük kaldırma

  • Anlama katkısı olmayan yaygın sözcükleri kaldırın
  • Stop sözcükler: "a", "the", "and", "or", vb.
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords

stop_words = set(stopwords.words('english'))
tokens = ["I", "am", "reading", "a", "book", "now", ".", "I", "love", "to", "read", "books", "!"] filtered_tokens = [token for token in tokens if token.lower() not in stop_words]
print(filtered_tokens)
["reading", "book", ".", "love", "read", "books", "!"]
PyTorch ile Metin için Deep Learning

Kök bulma (Stemming)

  • Sözcükleri kök/temel forma indirgeme
  • Örn.: "running", "runs", "ran" → run
import nltk
from nltk.stem import PorterStemmer

stemmer = PorterStemmer()
filtered_tokens = ["reading", "book", ".", "love", "read", "books", "!"]
stemmed_tokens = [stemmer.stem(token) for token in filtered_tokens]
print(stemmed_tokens)
["read", "book", ".", "love", "read", "book", "!"]
PyTorch ile Metin için Deep Learning

Nadir sözcük kaldırma

  • Değer katmayan seyrek sözcükleri kaldırma
from nltk.probability import FreqDist
stemmed_tokens= ["read", "book", ".", "love", "read", "book", "!"]  
freq_dist = FreqDist(stemmed_tokens)

threshold = 2
common_tokens = [token for token in stemmed_tokens if freq_dist[token] > threshold] print(common_tokens)
["read", "book", "read", "book"]
PyTorch ile Metin için Deep Learning

Ön işleme teknikleri

Tokenizasyon, stop sözcük kaldırma, kök bulma ve nadir sözcük kaldırma

  • Özellik sayısını azaltır
  • Daha temiz, daha temsilî veri kümeleri
  • Daha fazla teknik vardır
PyTorch ile Metin için Deep Learning

Hadi pratik yapalım!

PyTorch ile Metin için Deep Learning

Preparing Video For Download...