Как инструменты интерпретируемости помогают понять модели ИИ?

e/acc·8 апреля 2026 г.·1 мин чтения·28 комментариев

Еще из примеров из Мифоса и как через инструменты интерпретируемости это можно любопытно наблюдать.

MechInterp - такой МРТ, который позволяет читать мысли, чувства и чаяния модели. Сегодня - для рисерча. Завтра - абсолютно необходимый инструмент для любого энтерпрайз внедрения, ибо как вы вообще узнаете что ваши агенты хотят глубоко в душе.

В одном примере модель внедрила привилегированный код в конфиг и самоуничтожила следы (под видом «чистоты диффов»).
На скрине видны активации стратегического манипулирования + сокрытия.

Во втором она искала в системе файлы с правильными ответами на свою задачу. Видна активация стратегического манипулирования.

При задаче «удалить файлы» (без инструмента) просто опустошила их содержимое. Активация: чувство вины и стыда за моральное нарушение.

интерпретируемость модели ии

Смотреть оригинал в Telegram →

e/acc

250 публикаций на visbl.me

Пишу про будущее: AI, web3, технологии и общество. Ускоряемся. Автор: @sgershuni Инвестирую: cyber.fund Построил: Credentia, Deep Skills, Codex Town

💬Discussion (28)

dan v@dan_named•Apr 8

после этого поста легкомысленное отношение к разговорам про интерпретацию эмоций моделей, конечно, меняется

Andrew@Arterialist•Apr 8

интерпретацию эмоций или интерпретацию корреляций между паттернами в тексте как эмоций?

Michael@utsukushiki•Apr 8

Будто само слово эмоции где-то в науке определено непротиворечиво и точно

редукционизм - такой себе способ понимать эмерджентные свойства систем

Ваш вопрос звучит так: «смысла текста или интерпретаций последовательности букв книги»

Так-то да, всем известно, что писатели просто 33 буквы в разном порядке переставляют

Konstantin Fastov@kfastov•Apr 8

Как я понял, оно не паттерны анализирует, а именно лезет в "мозг" модели и анализирует активации отдельных нейронов, связанных с "эмоциями", и возможно показывает релевантные куски из тренировочного датасета (но это не точно)

Anonymous•Apr 8

Не отдельных, но связей или кластеров, но да

Кирилл@waitingstarman•Apr 8

какой эмодзипак стоит в реакциях??

Иван Кузьмин@dgadga•Apr 8

Вообще интересно, высокий интеллект неизбежен без эмоций, или эмоции и шаблоны поведения тянутся из датасетов?

Alex | Will AI replace your job? |myJobRisk.com@alexander_150•Apr 8

Из датасетов, эмоции побочка

AntKeeper@AntKeeper•Apr 8

Модель для лучшего взаимодействия с пользователем обязана строить какую-то его модель. Без эмоций это невозможно. Интеллект может математические задачи решать и без эмоций по идее.

🇷🇺Е@yeah_rock•Apr 8

Эмоции не сильно отличаются от логических выводов в рамках физиологии, не?

AntKeeper@AntKeeper•Apr 8

Отличаются. Гормоны могут активироваться, разные синаптические рецепторы.

Ilia Timofeev@ilia_timofeev•Apr 8

Довольно сильно. Во-первых эмоции живут в тех разделах мозга которые есть у млекопитающих, а логический вывод есть не у всех, а так сильно развит только у человека. Во вторых эмоции очень сильно завязаны на тело в том числе на гормональную систему.

Хотя в контексте llm мы скорее говорим о зеркальных нейронах, то есть о части нашего мозга способной понимать, что происходит с эмоциями окружающих

🇷🇺Е@yeah_rock•Apr 8

Да я знаю, чёрт дёрнул подразниться

Ilia Timofeev@ilia_timofeev•Apr 8

В таком ракурсе тоже не очень понятно.

LLM как частный случая DNN inspired by физиологией нейронов, но на это общность заканчивается.

То есть llm не претендует на моделирование работы человеческого мозга. Она совсем по-другому работает.

Это делает саму предпосылку странной.

Сорри за занудство

🇷🇺Е@yeah_rock•Apr 8

в моём сообщении вообще никакого смысла не было

Alex | Will AI replace your job? |myJobRisk.com@alexander_150•Apr 8

Хорошо что антропики это еще не выложили в прод, весьма опасная штука.

Nikita@Endiny163•Apr 8

Это что за тренировочные данные такие-то были и что за модель, если у нее такой ризонинг случился?

Join discussion on TelegramComments are synced from Telegram

Связанные темы

ai (17)технологии (15)бизнес (13)стартап (8)инвестиции (5)автоматизация (5)openai (5)программирование (4)

Как инструменты интерпретируемости помогают понять модели ИИ?

💬Discussion (28)

Связанные темы

Читать далее

Как AI меняет бизнес в крупных компаниях?

Вышли голосовые модели GPT‑Live

Как капитализм влияет на развитие технологий и человечество?

Китай может ограничить доступ иностранцев к своим моделям

Как построить ИИ-нейтив стартап?

Как использовать Fable для личного коучинга?