Etkin öğrenme

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Mina Parham

AI Engineer

İnsan döngüde (HITL) sistemler

Çıktısı insan değerlendiricisi tarafından incelenen bir BYM diyagramı.

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

İnsan döngüde (HITL) sistemler

Çıktısında büyük miktarda veri olan ve insan değerlendiricisi tarafından incelenen bir BYM diyagramı.

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

İnsan döngüde (HITL) sistemler

Rastgele seçilmiş çıktısı insan değerlendiricisi tarafından incelenen bir BYM diyagramı.

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

İnsan döngüde (HITL) sistemler

Etkin seçilmiş verileri insan değerlendiricisi inceleyen bir BYM diyagramı.

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

RLHF’de etkin öğrenme

Ödül modeli olmadan RLHF süreci.

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

RLHF’de etkin öğrenme

Tam RLHF süreci

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Etkin öğrenme

Girdi verisini temsil eden belge simgesi.

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Etkin öğrenme

Modele giren verileri temsil eden belge simgesi.

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Etkin öğrenme

Modele giren veriler ve çıktıya giden "model güvenli" etiketli ok bulunan şema.

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Etkin öğrenme

Modele giren veriler, çıktıya giden "model güvenli" etiketli ok ve paralel olarak "model emin değil" ile "insan inceler ve düzeltir" etiketli insana giden ok bulunan şema.

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Etkin öğrenme

Modele giren veriler, çıktıya giden "model güvenli" ok, "model emin değil" ve "insan inceler ve düzeltir" etiketli insana giden paralel ok ve bir tahmin çıktısı bulunan şema.

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Düşük güvenle etkin öğrenme hattı

from modAL.models import ActiveLearner

# Initialize learner learner = ActiveLearner( estimator=LogisticRegression(), query_strategy=uncertainty_sampling, X_training=X_labeled, y_training=y_labeled )
  • Belirsizlik örnekleme: güvenin en düşük olduğu noktalar seçilir
İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Düşük güvenle etkin öğrenme hattı

# Active learning loop
for _ in range(10):
    learner.teach(X_labeled, y_labeled)
    query_idx, _ = learner.query(X_unlabeled)
    X_labeled = np.vstack((X_labeled, X_unlabeled[query_idx]))
    y_labeled = np.append(y_labeled, y[query_idx])

X_unlabeled = np.delete(X_unlabeled, query_idx, axis=0)
İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Hadi pratik yapalım!

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Preparing Video For Download...