Нейросети делают странные обобщения после дообучения
Нейросети делают странные обобщения после дообучения
Если взять готовую LLM и при файнтюнинге дать ей узкий набор фактов, модель может сама достроить вокруг них целый контекст. Причём такой, которому её во время дообучения никто не учил.
Пример: модели во время доработки показали устаревшие названия птиц из книги XIX века. Потом спросили про недавние изобретения. В ответ она назвала телеграф и в целом стала придерживаться взглядов и ценностей тех времён.
Учёные пришли к выводу, что узкое дообучение иногда даёт слишком широкие обобщения. Это ведёт к странным ответам LLM и может открывать дорогу к бэкдорам. Избежать этого, фильтруя подозрительные данные, довольно сложно.
Тут короткая аннотация к научной статье об исследовании: https://www.lesswrong.com/posts/tCfjXzwKXmWnLkoHp/weird-generalization-and-inductive-backdoors
Если взять готовую LLM и при файнтюнинге дать ей узкий набор фактов, модель может сама достроить вокруг них целый контекст. Причём такой, которому её во время дообучения никто не учил.
Пример: модели во время доработки показали устаревшие названия птиц из книги XIX века. Потом спросили про недавние изобретения. В ответ она назвала телеграф и в целом стала придерживаться взглядов и ценностей тех времён.
Учёные пришли к выводу, что узкое дообучение иногда даёт слишком широкие обобщения. Это ведёт к странным ответам LLM и может открывать дорогу к бэкдорам. Избежать этого, фильтруя подозрительные данные, довольно сложно.
Тут короткая аннотация к научной статье об исследовании: https://www.lesswrong.com/posts/tCfjXzwKXmWnLkoHp/weird-generalization-and-inductive-backdoors
Read next
Как технологии заменяют людей в разных профессиях?
GPT/ChatGPT/AI Central Александра Горного•
Как работает функция напоминания авторизации в Manus?
GPT/ChatGPT/AI Central Александра Горного•
Маск признан виновным в том, что ввёл инвесторов Twitter в заблуждение своими постами в Twitter
GPT/ChatGPT/AI Central Александра Горного•