Нейросети делают странные обобщения после дообучения

Нейросети делают странные обобщения после дообучения

Если взять готовую LLM и при файнтюнинге дать ей узкий набор фактов, модель может сама достроить вокруг них целый контекст. Причём такой, которому её во время дообучения никто не учил.

Пример: модели во время доработки показали устаревшие названия птиц из книги XIX века. Потом спросили про недавние изобретения. В ответ она назвала телеграф и в целом стала придерживаться взглядов и ценностей тех времён.

Учёные пришли к выводу, что узкое дообучение иногда даёт слишком широкие обобщения. Это ведёт к странным ответам LLM и может открывать дорогу к бэкдорам. Избежать этого, фильтруя подозрительные данные, довольно сложно.

Тут короткая аннотация к научной статье об исследовании: https://www.lesswrong.com/posts/tCfjXzwKXmWnLkoHp/weird-generalization-and-inductive-backdoors

Read next