Нейросети делают странные обобщения после дообучения
Нейросети делают странные обобщения после дообучения
Если взять готовую LLM и при файнтюнинге дать ей узкий набор фактов, модель может сама достроить вокруг них целый контекст. Причём такой, которому её во время дообучения никто не учил.
Пример: модели во время доработки показали устаревшие названия птиц из книги XIX века. Потом спросили про недавние изобретения. В ответ она назвала телеграф и в целом стала придерживаться взглядов и ценностей тех времён.
Учёные пришли к выводу, что узкое дообучение иногда даёт слишком широкие обобщения. Это ведёт к странным ответам LLM и может открывать дорогу к бэкдорам. Избежать этого, фильтруя подозрительные данные, довольно сложно.
Тут короткая аннотация к научной статье об исследовании: https://www.lesswrong.com/posts/tCfjXzwKXmWnLkoHp/weird-generalization-and-inductive-backdoors
Если взять готовую LLM и при файнтюнинге дать ей узкий набор фактов, модель может сама достроить вокруг них целый контекст. Причём такой, которому её во время дообучения никто не учил.
Пример: модели во время доработки показали устаревшие названия птиц из книги XIX века. Потом спросили про недавние изобретения. В ответ она назвала телеграф и в целом стала придерживаться взглядов и ценностей тех времён.
Учёные пришли к выводу, что узкое дообучение иногда даёт слишком широкие обобщения. Это ведёт к странным ответам LLM и может открывать дорогу к бэкдорам. Избежать этого, фильтруя подозрительные данные, довольно сложно.
Тут короткая аннотация к научной статье об исследовании: https://www.lesswrong.com/posts/tCfjXzwKXmWnLkoHp/weird-generalization-and-inductive-backdoors
GPT/ChatGPT/AI Central Александра Горного
663 публикаций на visbl.me
Авторский взгляд на новости технологий Реклама: https://docs.google.com/presentation/d/1glQMXYyKAYpzNP8VXzM4gl2YkEgLjkeD_Fxvzbu5QUE/edit РКН: https://clck.ru/3FPkup Личный аккаунт: @gornal О рекламе: @Vzuhcha ВП нет
Связанные темы
Читать далее
— А бот в нашем стартапе называется агент. Это точно такая же обертка вокруг Deepseek. Только бот не может стоить восемь...
GPT/ChatGPT/AI Central Александра Горного·
Мне пишут: — Александр, добрый день! Мы с вами общались около двух лет назад насчет android разработки вашего проекта. ...
GPT/ChatGPT/AI Central Александра Горного·
Midjourney делает УЗИ-сканер тела
GPT/ChatGPT/AI Central Александра Горного·
Почему долго не отвечают на запросы в поддержку организаций?
GPT/ChatGPT/AI Central Александра Горного·
Snap показал AR-очки
GPT/ChatGPT/AI Central Александра Горного·
Как умножить свое время с помощью рычагов?
Оскар Хартманн·