Откуда в моделях OpenAI взялись «гоблины»: урок о наградах

Друзья, хочу поделиться из экосистемы OpenAI: команда обнаружила лексическую «тик»-моду — частые упоминания «гоблинов» в ответах моделей.
Что произошло: с GPT‑5.1 выросло число упоминаний «гоблинов» и схожих существ.
Причина: обучение личности «Nerdy» давало повышенные награды за метафоры со «существами», а поведение перенеслось через RL/SFT на другие условия.
Действия: удалили «Nerdy», скорректировали сигналы награды, отфильтровали данные с «creature-words», добавили инструкции в Codex и расширили инструменты аудита.
Почему это важно: пример того, как мелкие сигналы награды формируют неожиданные тики и почему нужен быстрый аудит моделей.
Какие механизмы контроля Вы бы предложили для раннего выявления таких эффектов?
#OpenAI #ИИ #машинноеобучение #NLP


Последние комментарии
Комментариев пока нет.