RLHF | SeoStar ⭐

RLHF – Reinforcement Learning from Human Preferences.

Pe romaneste tradus inseamna „Invatarea prin intarire din preferintele umane„. Modelele sunt ajustate cu ajutorul RL prin feedback-ul uman. Acestea devin mai utile, mai putin daunatoare si prezinta un salt urias in performanta. Un model RLHF a fost preferat unui model de baza GPT-3 de 100 de ori mai mare.

Vizualizari: 157