2 boyutlu haritalar için t-SNE

Python'da Unsupervised Learning

Benjamin Wilson

Director of Research at lateral.io

2 boyutlu haritalar için t-SNE

  • t-SNE = "t-distributed stochastic neighbor embedding"
  • Örnekleri 2B (veya 3B) uzaya eşler
  • Harita, örnek yakınlıklarını yaklaşık korur
  • Veri keşfi için idealdir
Python'da Unsupervised Learning

Iris veri kümesinde t-SNE

  • Iris veri kümesinde 4 ölçüm var; örnekler 4 boyutludur
  • t-SNE örnekleri 2B uzaya eşler
  • t-SNE türleri bilmiyordu
  • ... yine de türleri çoğunlukla ayırdı

Iris veri kümesinde t-SNE saçılım grafiği

Python'da Unsupervised Learning

t-SNE saçılım grafiklerini yorumlama

  • "versicolor" ve "virginica" birbirinden ayırt etmesi daha zor
  • k-means atalet grafiğiyle tutarlı: 2 veya 3 küme savunulabilir

Iris veri kümesinde t-SNE saçılım grafiği

Python'da Unsupervised Learning

sklearn'de t-SNE

  • 2B NumPy dizisi samples
print(samples)
[[ 5.   3.3  1.4  0.2]
 [ 5.   3.5  1.3  0.3]
 [ 4.9  2.4  3.3  1. ]
 [ 6.3  2.8  5.1  1.5]
 ...
 [ 4.9  3.1  1.5  0.1]]
  • Tür etiketlerini sayı olarak veren (0, 1, 2) species listesi
print(species)
[0, 0, 1, 2, ..., 0]
Python'da Unsupervised Learning

sklearn'de t-SNE

import matplotlib.pyplot as plt
from sklearn.manifold import TSNE
model = TSNE(learning_rate=100)

transformed = model.fit_transform(samples) xs = transformed[:,0] ys = transformed[:,1] plt.scatter(xs, ys, c=species) plt.show()

Iris veri kümesinde t-SNE saçılım grafiği

Python'da Unsupervised Learning

t-SNE yalnızca fit_transform() içerir

  • fit_transform() yöntemi vardır
  • Modeli eğitir ve veriyi aynı anda dönüştürür
  • Ayrı fit() veya transform() yoktur
  • Harita yeni örneklerle genişletilemez
  • Her seferinde baştan başlamak gerekir!
Python'da Unsupervised Learning

t-SNE öğrenme oranı

  • Veri kümesi için öğrenme oranını seçin
  • Yanlış seçim: noktalar kümelenir
  • 50 ile 200 arasında deneyin
Python'da Unsupervised Learning

Her seferinde farklı

  • t-SNE özellikleri her çalıştırmada değişir
  • Piedmont şarapları: 3 koşu, 3 farklı saçılım grafiği!
  • ... ancak: Şarap türleri (=renkler) birbirlerine göre aynı göreli konumdadır

 

t-SNE, şarap veri kümesinde 3 kez çalıştırılmış, 3 saçılım grafiği

Python'da Unsupervised Learning

Hadi pratik yapalım!

Python'da Unsupervised Learning

Preparing Video For Download...