Нейросети делают странные обобщения после дообучения

Нейросети делают странные обобщения после дообучения

Если взять готовую LLM и при файнтюнинге дать ей узкий набор фактов, модель может сама достроить вокруг них целый контекст. Причём такой, которому её во время дообучения никто не учил.

Пример: модели во время доработки показали устаревшие названия птиц из книги XIX века. Потом спросили про недавние изобретения. В ответ она назвала телеграф и в целом стала придерживаться взглядов и ценностей тех времён.

Учёные пришли к выводу, что узкое дообучение иногда даёт слишком широкие обобщения. Это ведёт к странным ответам LLM и может открывать дорогу к бэкдорам. Избежать этого, фильтруя подозрительные данные, довольно сложно.

Тут короткая аннотация к научной статье об исследовании: https://www.lesswrong.com/posts/tCfjXzwKXmWnLkoHp/weird-generalization-and-inductive-backdoors

GPT/ChatGPT/AI Central Александра Горного

470 публикаций на visbl.me

Авторский взгляд на новости технологий Реклама: https://docs.google.com/presentation/d/1glQMXYyKAYpzNP8VXzM4gl2YkEgLjkeD_Fxvzbu5QUE/edit РКН: https://clck.ru/3FPkup Личный аккаунт: @gornal О рекламе: @Vzuhcha ВП нет

Нейросети делают странные обобщения после дообучения

Связанные темы

Читать далее

Как снизить соотношение бюджетов на людей и софт в компании?

Маск ликвидировал xAI

Как сократить соотношение бюджетов на людей и софт?

Как чат-боты влияют на клиентский опыт в бизнесе?

Куда движется рынок AI в 2026 году?