Feedback uit diverse bronnen integreren

Reinforcement Learning from Human Feedback (RLHF)

Mina Parham

AI Engineer

Betere generalisatie van het model

Verschillende perspectieven en contexten weergeven
Generaliseert voorkeuren en waarden

Een afbeelding van handen met tekstballonnen die diverse meningen tonen.

Minder bias

Vermindert individuele biases
Levert evenwichtigere en eerlijkere modeluitvoer op

Een staafdiagram met het verschil tussen een dataset met mannelijke bias en een gebalanceerde dataset met gelijke verdeling voor mannen en vrouwen

Betere afstemming op menselijke waarden

Complexe menselijke voorkeuren
Culturen en achtergronden vertegenwoordigd

Pictogrammen die een diverse groep mensen voorstellen

Meer aanpassingsvermogen

Model reageert op meer soorten behoeften en voorkeuren
Verschillende perspectieven vertegenwoordigen

Een pictogram van een persoon met emoji’s die verschillende perspectieven tonen.

Meer robuustheid

Bestand tegen verschillende soorten input
Prestaties verbeteren

Een diagram dat betere kwaliteit toont dankzij verschillende inputs en contexten.

Preferentiedata uit meerdere bronnen integreren

Preferentiedata preference_df met bronnen 'Journalist', 'Social Media Influencer' en 'Marketing Professional':

Een tabel met gestructureerde data uit drie bronnen

Meerderheidsstemming

Deze voorbeelddata kun je eenvoudig integreren door te groeperen op 'id':

df_majority = preference_df.groupby(['id']).apply(majority_vote)

Vervolgens met meerderheid van stemmen:

from collections import Counter

def majority_vote(df):
    votes = Counter(zip(df['chosen'], df['rejected'])) 
    return max(votes, key=votes.get)

Onbetrouwbare preferentiebronnen

Preferentiedata preference_df2 met dezelfde drie experts:

Een tabel met gestructureerde data uit drie bronnen

Onbetrouwbare preferentiebronnen

Itereren over de rijen van preference_df2 om onbetrouwbare bronnen te vinden:

df_majority = preference_df2.groupby('id').apply(majority_vote)

disagreements = {source: 0 for source in preference_df2['source'].unique()}


for _, row in preference_df2.iterrows():
    if (row['chosen'], row['rejected']) != df_majority[row['id']]:
            disagreements[row['source']] += 1


detect_unreliable_source = max(disagreements, key=disagreements.get)

Laten we oefenen!

Reinforcement Learning from Human Feedback (RLHF)