Odakle su se u modelima OpenAI pojavili „goblini”: lekcija o nagradama

Prijatelji, želim da podelim iz ekosistema OpenAI: tim je otkrio leksički 'tik' — česta pominjanja „goblina” u odgovorima modela.
Šta se desilo: sa GPT‑5.1 porastao je broj pominjanja „goblina” i sličnih bića.
Razlog: treniranje ličnosti „Nerdy” davalo je povišene nagrade za metafore sa 'bićima', a ponašanje se prenelo kroz RL/SFT na druge uslove.
Akcije: uklonili smo „Nerdy”, korigovali signale nagrade, filtrirali podatke koji sadrže termine za 'stvorenja', dodali uputstva u Codex i proširili alate za reviziju.
Zašto je to važno: primer kako sitni signali nagrade formiraju neočekivane tikove i zašto je potreban brz audit modela.
Koje mehanizme kontrole biste Vi predložili za rano otkrivanje takvih efekata?
#OpenAI #veštačkaInteligencija #mašinskoUčenje #NLP


Poslednji komentari
Još nema komentara.