Çeşitli geri bildirim kaynaklarını dahil etme

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Mina Parham

AI Engineer

Geliştirilmiş model genellemesi

 

  • Farklı bakış açıları ve bağlamları yansıtır
  • Tercih ve değerleri geneller

Çeşitli görüşleri temsil eden konuşma baloncuklarıyla ellerin görseli.

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Azaltılmış önyargı

  • Bireysel önyargıları azaltır
  • Daha dengeli ve adil çıktı üretir

Erkeklere eğilimli bir veri kümesi ile kadın ve erkek için eşit dağılımlı dengeli bir veri kümesi arasındaki farkı gösteren çubuk grafik

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

İnsan değerleriyle daha iyi uyum

  • Karmaşık insan tercihleri
  • Kültürler ve geçmişler temsil edilir

Çeşitli bir insan grubunu temsil eden ikonlar

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Gelişmiş uyum kabiliyeti

  • Daha geniş kullanıcı ihtiyaç ve tercihlerine yanıt verir
  • Farklı bakış açılarını yansıtır

Farklı bakış açılarını simgeleyen emojilerle bir kişi ikonu.

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Artan sağlamlık

  • Farklı türde girdilere dayanıklıdır
  • Performansını artırır

Farklı girdiler ve bağlamlar sayesinde iyileşen kaliteyi gösteren bir diyagram.

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Birden çok kaynaktan tercih verisini entegre etme

Kaynakları 'Gazeteci', 'Sosyal Medya Fenomeni' ve 'Pazarlama Uzmanı' olan tercih verisi preference_df:

Üç farklı kaynaktan yapılandırılmış verileri gösteren bir tablo

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Çoğunluk oylaması

Bu örnek veri, 'id' ile gruplanarak kolayca entegre edilebilir:

df_majority = preference_df.groupby(['id']).apply(majority_vote)

Ardından çoğunluk oylaması kullanılır:

from collections import Counter

def majority_vote(df):
    votes = Counter(zip(df['chosen'], df['rejected'])) 
    return max(votes, key=votes.get)
İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Güvenilmez tercih veri kaynakları

Aynı üç uzmana ait preference_df2 tercih verisi:

Üç farklı kaynaktan yapılandırılmış verileri gösteren bir tablo

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Güvenilmez tercih veri kaynakları

  • Güvenilmez kaynakları belirlemek için preference_df2 satırları üzerinde yineleme:
df_majority = preference_df2.groupby('id').apply(majority_vote)

disagreements = {source: 0 for source in preference_df2['source'].unique()}
for _, row in preference_df2.iterrows(): if (row['chosen'], row['rejected']) != df_majority[row['id']]: disagreements[row['source']] += 1
detect_unreliable_source = max(disagreements, key=disagreements.get)
İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Hadi pratik yapalım!

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Preparing Video For Download...