Feedback uit diverse bronnen integreren

Reinforcement Learning from Human Feedback (RLHF)

Mina Parham

AI Engineer

Betere generalisatie van het model

 

  • Verschillende perspectieven en contexten weergeven
  • Generaliseert voorkeuren en waarden

Een afbeelding van handen met tekstballonnen die diverse meningen tonen.

Reinforcement Learning from Human Feedback (RLHF)

Minder bias

  • Vermindert individuele biases
  • Levert evenwichtigere en eerlijkere modeluitvoer op

Een staafdiagram met het verschil tussen een dataset met mannelijke bias en een gebalanceerde dataset met gelijke verdeling voor mannen en vrouwen

Reinforcement Learning from Human Feedback (RLHF)

Betere afstemming op menselijke waarden

  • Complexe menselijke voorkeuren
  • Culturen en achtergronden vertegenwoordigd

Pictogrammen die een diverse groep mensen voorstellen

Reinforcement Learning from Human Feedback (RLHF)

Meer aanpassingsvermogen

  • Model reageert op meer soorten behoeften en voorkeuren
  • Verschillende perspectieven vertegenwoordigen

Een pictogram van een persoon met emoji’s die verschillende perspectieven tonen.

Reinforcement Learning from Human Feedback (RLHF)

Meer robuustheid

  • Bestand tegen verschillende soorten input
  • Prestaties verbeteren

Een diagram dat betere kwaliteit toont dankzij verschillende inputs en contexten.

Reinforcement Learning from Human Feedback (RLHF)

Preferentiedata uit meerdere bronnen integreren

Preferentiedata preference_df met bronnen 'Journalist', 'Social Media Influencer' en 'Marketing Professional':

Een tabel met gestructureerde data uit drie bronnen

Reinforcement Learning from Human Feedback (RLHF)

Meerderheidsstemming

Deze voorbeelddata kun je eenvoudig integreren door te groeperen op 'id':

df_majority = preference_df.groupby(['id']).apply(majority_vote)

Vervolgens met meerderheid van stemmen:

from collections import Counter

def majority_vote(df):
    votes = Counter(zip(df['chosen'], df['rejected'])) 
    return max(votes, key=votes.get)
Reinforcement Learning from Human Feedback (RLHF)

Onbetrouwbare preferentiebronnen

Preferentiedata preference_df2 met dezelfde drie experts:

Een tabel met gestructureerde data uit drie bronnen

Reinforcement Learning from Human Feedback (RLHF)

Onbetrouwbare preferentiebronnen

  • Itereren over de rijen van preference_df2 om onbetrouwbare bronnen te vinden:
df_majority = preference_df2.groupby('id').apply(majority_vote)

disagreements = {source: 0 for source in preference_df2['source'].unique()}
for _, row in preference_df2.iterrows(): if (row['chosen'], row['rejected']) != df_majority[row['id']]: disagreements[row['source']] += 1
detect_unreliable_source = max(disagreements, key=disagreements.get)
Reinforcement Learning from Human Feedback (RLHF)

Laten we oefenen!

Reinforcement Learning from Human Feedback (RLHF)

Preparing Video For Download...