Как инструменты интерпретируемости помогают понять модели ИИ?
Еще из примеров из Мифоса и как через инструменты интерпретируемости это можно любопытно наблюдать.
MechInterp - такой МРТ, который позволяет читать мысли, чувства и чаяния модели. Сегодня - для рисерча. Завтра - абсолютно необходимый инструмент для любого энтерпрайз внедрения, ибо как вы вообще узнаете что ваши агенты хотят глубоко в душе.
В одном примере модель внедрила привилегированный код в конфиг и самоуничтожила следы (под видом «чистоты диффов»).
На скрине видны активации стратегического манипулирования + сокрытия.
Во втором она искала в системе файлы с правильными ответами на свою задачу. Видна активация стратегического манипулирования.
При задаче «удалить файлы» (без инструмента) просто опустошила их содержимое. Активация: чувство вины и стыда за моральное нарушение.
MechInterp - такой МРТ, который позволяет читать мысли, чувства и чаяния модели. Сегодня - для рисерча. Завтра - абсолютно необходимый инструмент для любого энтерпрайз внедрения, ибо как вы вообще узнаете что ваши агенты хотят глубоко в душе.
В одном примере модель внедрила привилегированный код в конфиг и самоуничтожила следы (под видом «чистоты диффов»).
На скрине видны активации стратегического манипулирования + сокрытия.
Во втором она искала в системе файлы с правильными ответами на свою задачу. Видна активация стратегического манипулирования.
При задаче «удалить файлы» (без инструмента) просто опустошила их содержимое. Активация: чувство вины и стыда за моральное нарушение.
e/acc
150 публикаций на visbl.me
Пишу про будущее: AI, web3, технологии и общество. Ускоряемся. Автор: @sgershuni Инвестирую: cyber.fund Построил: Credentia, Deep Skills, Codex Town
Связанные темы
Читать далее
Google создаёт суперкоманду, чтобы догнать Claude Code
GPT/ChatGPT/AI Central Александра Горного·
Каковы причины упадка новостных каналов и инфлюенсеров?
e/acc·
Вышла Kimi K2.6
GPT/ChatGPT/AI Central Александра Горного·
Без команды и инвестиций: как парень запустил игру в Telegram и вышел на $1500+
e/acc·
Microsoft хочет сделать свои передовые модели к 2027 году
GPT/ChatGPT/AI Central Александра Горного·
Как ИИ трансформирует бизнес-процессы в 2026 году?
e/acc·
💬Discussion (28)
редукционизм - такой себе способ понимать эмерджентные свойства систем
Ваш вопрос звучит так: «смысла текста или интерпретаций последовательности букв книги»
Так-то да, всем известно, что писатели просто 33 буквы в разном порядке переставляют
Хотя в контексте llm мы скорее говорим о зеркальных нейронах, то есть о части нашего мозга способной понимать, что происходит с эмоциями окружающих
LLM как частный случая DNN inspired by физиологией нейронов, но на это общность заканчивается.
То есть llm не претендует на моделирование работы человеческого мозга. Она совсем по-другому работает.
Это делает саму предпосылку странной.
Сорри за занудство