Как инструменты интерпретируемости помогают понять модели ИИ?

e/acc··1 мин чтения·28 комментариев
Еще из примеров из Мифоса и как через инструменты интерпретируемости это можно любопытно наблюдать.

MechInterp - такой МРТ, который позволяет читать мысли, чувства и чаяния модели. Сегодня - для рисерча. Завтра - абсолютно необходимый инструмент для любого энтерпрайз внедрения, ибо как вы вообще узнаете что ваши агенты хотят глубоко в душе.

В одном примере модель внедрила привилегированный код в конфиг и самоуничтожила следы (под видом «чистоты диффов»).
На скрине видны активации стратегического манипулирования + сокрытия.

Во втором она искала в системе файлы с правильными ответами на свою задачу. Видна активация стратегического манипулирования.

При задаче «удалить файлы» (без инструмента) просто опустошила их содержимое. Активация: чувство вины и стыда за моральное нарушение.
e/acc
e/acc

138 публикаций на visbl.me

Пишу про будущее: AI, web3, технологии и общество. Ускоряемся. Автор: @sgershuni Инвестирую: cyber.fund Построил: Credentia, Deep Skills, Codex Town

💬Discussion (28)

dan v@dan_named
после этого поста легкомысленное отношение к разговорам про интерпретацию эмоций моделей, конечно, меняется
Andrew@Arterialist
интерпретацию эмоций или интерпретацию корреляций между паттернами в тексте как эмоций?
Michael@utsukushiki
Будто само слово эмоции где-то в науке определено непротиворечиво и точно

редукционизм - такой себе способ понимать эмерджентные свойства систем

Ваш вопрос звучит так: «смысла текста или интерпретаций последовательности букв книги»

Так-то да, всем известно, что писатели просто 33 буквы в разном порядке переставляют
Konstantin Fastov@kfastov
Как я понял, оно не паттерны анализирует, а именно лезет в "мозг" модели и анализирует активации отдельных нейронов, связанных с "эмоциями", и возможно показывает релевантные куски из тренировочного датасета (но это не точно)
Anonymous
Не отдельных, но связей или кластеров, но да
Кирилл@waitingstarman
какой эмодзипак стоит в реакциях??
Иван Кузьмин@dgadga
Вообще интересно, высокий интеллект неизбежен без эмоций, или эмоции и шаблоны поведения тянутся из датасетов?
Alex | Will AI replace your job? |myJobRisk.com@alexander_150
Из датасетов, эмоции побочка
AntKeeper@AntKeeper
Модель для лучшего взаимодействия с пользователем обязана строить какую-то его модель. Без эмоций это невозможно. Интеллект может математические задачи решать и без эмоций по идее.
🇷🇺Е@yeah_rock
Эмоции не сильно отличаются от логических выводов в рамках физиологии, не?
AntKeeper@AntKeeper
Отличаются. Гормоны могут активироваться, разные синаптические рецепторы.
Ilia Timofeev@ilia_timofeev
Довольно сильно. Во-первых эмоции живут в тех разделах мозга которые есть у млекопитающих, а логический вывод есть не у всех, а так сильно развит только у человека. Во вторых эмоции очень сильно завязаны на тело в том числе на гормональную систему.


Хотя в контексте llm мы скорее говорим о зеркальных нейронах, то есть о части нашего мозга способной понимать, что происходит с эмоциями окружающих
🇷🇺Е@yeah_rock
Да я знаю, чёрт дёрнул подразниться
Ilia Timofeev@ilia_timofeev
В таком ракурсе тоже не очень понятно.

LLM как частный случая DNN inspired by физиологией нейронов, но на это общность заканчивается.

То есть llm не претендует на моделирование работы человеческого мозга. Она совсем по-другому работает.

Это делает саму предпосылку странной.

Сорри за занудство
🇷🇺Е@yeah_rock
в моём сообщении вообще никакого смысла не было
Alex | Will AI replace your job? |myJobRisk.com@alexander_150
Хорошо что антропики это еще не выложили в прод, весьма опасная штука.
Nikita@Endiny163
Это что за тренировочные данные такие-то были и что за модель, если у нее такой ризонинг случился?
Join discussion on TelegramComments are synced from Telegram

Связанные темы

Читать далее