Etkin öğrenme

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Mina Parham

AI Engineer

İnsan döngüde (HITL) sistemler

Çıktısı insan değerlendiricisi tarafından incelenen bir BYM diyagramı.

İnsan döngüde (HITL) sistemler

Çıktısında büyük miktarda veri olan ve insan değerlendiricisi tarafından incelenen bir BYM diyagramı.

İnsan döngüde (HITL) sistemler

Rastgele seçilmiş çıktısı insan değerlendiricisi tarafından incelenen bir BYM diyagramı.

İnsan döngüde (HITL) sistemler

Etkin seçilmiş verileri insan değerlendiricisi inceleyen bir BYM diyagramı.

RLHF’de etkin öğrenme

Ödül modeli olmadan RLHF süreci.

RLHF’de etkin öğrenme

Tam RLHF süreci

Etkin öğrenme

Girdi verisini temsil eden belge simgesi.

Etkin öğrenme

Modele giren verileri temsil eden belge simgesi.

Etkin öğrenme

Modele giren veriler ve çıktıya giden "model güvenli" etiketli ok bulunan şema.

Etkin öğrenme

Modele giren veriler, çıktıya giden "model güvenli" etiketli ok ve paralel olarak "model emin değil" ile "insan inceler ve düzeltir" etiketli insana giden ok bulunan şema.

Etkin öğrenme

Modele giren veriler, çıktıya giden "model güvenli" ok, "model emin değil" ve "insan inceler ve düzeltir" etiketli insana giden paralel ok ve bir tahmin çıktısı bulunan şema.

Düşük güvenle etkin öğrenme hattı

from modAL.models import ActiveLearner

# Initialize learner
learner = ActiveLearner(
    estimator=LogisticRegression(),
    query_strategy=uncertainty_sampling,
    X_training=X_labeled, y_training=y_labeled
)

Belirsizlik örnekleme: güvenin en düşük olduğu noktalar seçilir

Düşük güvenle etkin öğrenme hattı

# Active learning loop
for _ in range(10):
    learner.teach(X_labeled, y_labeled)
    query_idx, _ = learner.query(X_unlabeled)
    X_labeled = np.vstack((X_labeled, X_unlabeled[query_idx]))
    y_labeled = np.append(y_labeled, y[query_idx])

    X_unlabeled = np.delete(X_unlabeled, query_idx, axis=0)

Hadi pratik yapalım!

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)