Çeşitli geri bildirim kaynaklarını dahil etme

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)

Mina Parham

AI Engineer

Geliştirilmiş model genellemesi

Farklı bakış açıları ve bağlamları yansıtır
Tercih ve değerleri geneller

Çeşitli görüşleri temsil eden konuşma baloncuklarıyla ellerin görseli.

Azaltılmış önyargı

Bireysel önyargıları azaltır
Daha dengeli ve adil çıktı üretir

Erkeklere eğilimli bir veri kümesi ile kadın ve erkek için eşit dağılımlı dengeli bir veri kümesi arasındaki farkı gösteren çubuk grafik

İnsan değerleriyle daha iyi uyum

Karmaşık insan tercihleri
Kültürler ve geçmişler temsil edilir

Çeşitli bir insan grubunu temsil eden ikonlar

Gelişmiş uyum kabiliyeti

Daha geniş kullanıcı ihtiyaç ve tercihlerine yanıt verir
Farklı bakış açılarını yansıtır

Farklı bakış açılarını simgeleyen emojilerle bir kişi ikonu.

Artan sağlamlık

Farklı türde girdilere dayanıklıdır
Performansını artırır

Farklı girdiler ve bağlamlar sayesinde iyileşen kaliteyi gösteren bir diyagram.

Birden çok kaynaktan tercih verisini entegre etme

Kaynakları 'Gazeteci', 'Sosyal Medya Fenomeni' ve 'Pazarlama Uzmanı' olan tercih verisi preference_df:

Üç farklı kaynaktan yapılandırılmış verileri gösteren bir tablo

Çoğunluk oylaması

Bu örnek veri, 'id' ile gruplanarak kolayca entegre edilebilir:

df_majority = preference_df.groupby(['id']).apply(majority_vote)

Ardından çoğunluk oylaması kullanılır:

from collections import Counter

def majority_vote(df):
    votes = Counter(zip(df['chosen'], df['rejected'])) 
    return max(votes, key=votes.get)

Güvenilmez tercih veri kaynakları

Aynı üç uzmana ait preference_df2 tercih verisi:

Üç farklı kaynaktan yapılandırılmış verileri gösteren bir tablo

Güvenilmez tercih veri kaynakları

Güvenilmez kaynakları belirlemek için preference_df2 satırları üzerinde yineleme:

df_majority = preference_df2.groupby('id').apply(majority_vote)

disagreements = {source: 0 for source in preference_df2['source'].unique()}


for _, row in preference_df2.iterrows():
    if (row['chosen'], row['rejected']) != df_majority[row['id']]:
            disagreements[row['source']] += 1


detect_unreliable_source = max(disagreements, key=disagreements.get)

Hadi pratik yapalım!

İnsan Geri Bildiriminden Pekiştirmeli Öğrenme (RLHF)