Actief leren

Reinforcement Learning from Human Feedback (RLHF)

Mina Parham

AI Engineer

Human-in-the-loop-systemen

Een diagram van een LLM met output beoordeeld door een menselijke reviewer.

Human-in-the-loop-systemen

Een diagram van een LLM met een groot volume aan data in de output, beoordeeld door een menselijke reviewer.

Human-in-the-loop-systemen

Een diagram van een LLM met een willekeurige selectie aan outputdata, beoordeeld door een menselijke reviewer.

Human-in-the-loop-systemen

Een diagram van een LLM met actief gekozen data, beoordeeld door een menselijke reviewer.

Actief leren in RLHF

Het RLHF-proces zonder het rewardmodel-gedeelte.

Actief leren in RLHF

Het volledige RLHF-proces

Actief leren

Een pictogram van documenten dat invoergegevens weergeeft.

Actief leren

Een pictogram van documenten dat gegevens naar een model weergeeft.

Actief leren

Een pictogram van documenten die een model ingaan, en een pijl met het label "model zeker" naar de output.

Actief leren

Een pictogram van documenten die een model ingaan, een pijl met het label "model zeker" naar de output, en een parallelle pijl naar een mens met labels: "model onzeker" en "mens beoordeelt en corrigeert".

Actief leren

Een pictogram van documenten die een model ingaan, een pijl met het label "model zeker" naar de output, een parallelle pijl naar een mens met labels "model onzeker" en "mens beoordeelt en corrigeert", en een voorspelde output.

Actief-leren-pijplijn met lage zekerheid

from modAL.models import ActiveLearner

# Initialize learner
learner = ActiveLearner(
    estimator=LogisticRegression(),
    query_strategy=uncertainty_sampling,
    X_training=X_labeled, y_training=y_labeled
)

Onzekerheidssteekproeven: punten gekozen waar de zekerheid het laagst is

Actief-leren-pijplijn met lage zekerheid

# Active learning loop
for _ in range(10):
    learner.teach(X_labeled, y_labeled)
    query_idx, _ = learner.query(X_unlabeled)
    X_labeled = np.vstack((X_labeled, X_unlabeled[query_idx]))
    y_labeled = np.append(y_labeled, y[query_idx])

    X_unlabeled = np.delete(X_unlabeled, query_idx, axis=0)

Laten we oefenen!

Reinforcement Learning from Human Feedback (RLHF)