Нейросети делают странные обобщения после дообучения
Нейросети делают странные обобщения после дообучения
Если взять готовую LLM и при файнтюнинге дать ей узкий набор фактов, модель может сама достроить вокруг них целый контекст. Причём такой, которому её во время дообучения никто не учил.
Пример: модели во время доработки показали устаревшие названия птиц из книги XIX века. Потом спросили про недавние изобретения. В ответ она назвала телеграф и в целом стала придерживаться взглядов и ценностей тех времён.
Учёные пришли к выводу, что узкое дообучение иногда даёт слишком широкие обобщения. Это ведёт к странным ответам LLM и может открывать дорогу к бэкдорам. Избежать этого, фильтруя подозрительные данные, довольно сложно.
Тут короткая аннотация к научной статье об исследовании: https://www.lesswrong.com/posts/tCfjXzwKXmWnLkoHp/weird-generalization-and-inductive-backdoors
Если взять готовую LLM и при файнтюнинге дать ей узкий набор фактов, модель может сама достроить вокруг них целый контекст. Причём такой, которому её во время дообучения никто не учил.
Пример: модели во время доработки показали устаревшие названия птиц из книги XIX века. Потом спросили про недавние изобретения. В ответ она назвала телеграф и в целом стала придерживаться взглядов и ценностей тех времён.
Учёные пришли к выводу, что узкое дообучение иногда даёт слишком широкие обобщения. Это ведёт к странным ответам LLM и может открывать дорогу к бэкдорам. Избежать этого, фильтруя подозрительные данные, довольно сложно.
Тут короткая аннотация к научной статье об исследовании: https://www.lesswrong.com/posts/tCfjXzwKXmWnLkoHp/weird-generalization-and-inductive-backdoors
GPT/ChatGPT/AI Central Александра Горного
470 публикаций на visbl.me
Авторский взгляд на новости технологий Реклама: https://docs.google.com/presentation/d/1glQMXYyKAYpzNP8VXzM4gl2YkEgLjkeD_Fxvzbu5QUE/edit РКН: https://clck.ru/3FPkup Личный аккаунт: @gornal О рекламе: @Vzuhcha ВП нет
Связанные темы
Читать далее
В канале о венчуре иногда об AI тоже пишем....
GPT/ChatGPT/AI Central Александра Горного·
Как снизить соотношение бюджетов на людей и софт в компании?
GPT/ChatGPT/AI Central Александра Горного·
Маск ликвидировал xAI
GPT/ChatGPT/AI Central Александра Горного·
Как сократить соотношение бюджетов на людей и софт?
Венчур Менна и Горного·
Как чат-боты влияют на клиентский опыт в бизнесе?
GPT/ChatGPT/AI Central Александра Горного·
Куда движется рынок AI в 2026 году?
e/acc·