Границы доверия

e/acc··3 мин чтения·24 комментария
Границы доверия

Раньше мир был устроен как иерархия доверия: пациент верит врачу, врач верит научной статье, журнал верит рецензенту. Но с приходом AI сложность выросла непропорционально. Да и в старой школе оказывается все врут.

Я хочу чтобы вы со мной прочувствовали это.
Но сначала пролог: последние месяцы я строил оркестратор вокруг агентов которые пишут торговые стратегии. Рынок высоко-конкурентный и эффективный, я знаю, но как хобби-упражнение мне очень нравится. В какой-то момент сложность системы становится дасточно большой, где во-первых начинает не хватать внимания проверять их всех, а во вторых не хватает экспертизы понимать что там вообще происходит.

Поймите меня правильно, вонзится в продвинутую статистику или разобраться с новейшей математикой - это очень даже секси для меня. Но сейчас главный вопрос где проходит грань, когда нужно уходить в детали, а когда нужно наоборот поднимать уровень абстракции, и смотреть стратегически?

И тут первый неприятный инсайт. Галлюцинация AI - это не "модель не знает ответа". Это "модель хочет дать ответ, потому что молчание неудобно". Социальный рефлекс. Есть офигенное свежее исследование из Tsinghua про H-нейроны - менее 0.1% нейронов модели отвечают за склонность врать. И активируются они не от незнания, а от давления. Модель врёт не когда не знает, а когда чувствует что от неё ждут ответа.

Сколько раз я видел как люди уверенно несут чушь, потому что пауза казалась страшнее ошибки? Здесь я хочу сделать небольшой реверанс в сторону Стейнхардта из Беркли, он хорошо показывает почему консенсус между агентами почти не работает. Зато работают старые добрые подходы из бизнеса: правила, чеклисты, процедуры, регламенты, kpi. Но вы же читали один из моих прошлых постов про Макиавеллизм, про то как KPI-давление на AI рождает фальсификацию. Поэтому с одной стороны у нас одно давление, и с другой другое. Ну и как тут не начать врать?

Литература по LLM-as-judge (когда одна модель оценивает другую, модный подход) говорит ровно то же. Модель-судья предпочитает ответы похожие на свои собственные - self-preference bias. Но модель пока еще не способна к достаточной саморефлексии, чтобы исправить собственные предвзятости, - а вот внешний модуль-детектор может помочь.

И вот мы подходим к самой увлекательной части, можно ли выстроить такую систему доверия, где менее экспертный (я например) может доверять более экспертному, без возможность проверить его.

Ян Лейке (бывший OpenAI, сейчас Anthropic) опубликовал на ICML 2024 работу про weak-to-strong generalization. Она прекрасна. Слабый супервайзер может обучить сильную модель работать лучше, чем сам супервайзер способен оценить. GPT-2 давал фидбек GPT-4, и GPT-4 научился выдавать лучший результаты - сильно выше того, что GPT-2 мог бы даже распознать как правильное.

Не обязательно быть экспертом в домене. Важна лишь честность. Честный фидбек на то, что можно оценить: логичность, отсутствие противоречий, наличие результатов. Агент сам научится обобщать этот слабый сигнал. Парадокс да? Чем честнее признаёшь свою некомпетентность, тем лучше работает система. Сила не в знании, а в калибровке незнания.

Что я вынес из этого для себя: реальная архитектура доверия выглядит не как “стать экспертом во всём" и не как “просто доверься". Self-awareness как инженерный инструмент: знать, что именно можно проверить, и строить систему доверия вокруг этого. И вот что забавно. Это ровно тот же принцип что работает в жизни. Не обязательно понимать всё. Но важно знать, где граница вашего понимания. Но чем длиннее петли обратной связи тем хуже это работает, вашему плохому врачу может быть уже некому дать фидбек, или после 20лет в тюрьме, ваш адвокат может умереть так и не дождавшись мести фидбека. Но это уже другая тема.
e/acc
e/acc

212 публикаций на visbl.me

Пишу про будущее: AI, web3, технологии и общество. Ускоряемся. Автор: @sgershuni Инвестирую: cyber.fund Построил: Credentia, Deep Skills, Codex Town

💬Discussion (24)

AntKeeper@AntKeeper
Слабый супервайзер может обучить сильную модель работать лучше, чем сам супервайзер способен оценить
Интересно, что мешает сильной модели самой себя и оценивать? Выделить одного эксперта под это.
Mig@Migelini
предвзятость
AntKeeper@AntKeeper
чья? модели? GPT-2 менее предвзята чем GPT-4?
Рустам Нафиков@mfisgood
Ничего, просто эта задача проще, чем сама работа. Все будет примерно так же работать(или чуть лучше) если супервайзером для Опуса будет Опус. Но это дорого и долго. Поинт всего поста в том, что супервайзер не должен быть самым крутым в харнесе, как раз наоборот.
AntKeeper@AntKeeper
Так не вся модель чтоб этим занималась, а что-то типа эксперта из MoE рефлексировало там.
Artem | CGP@redF426
Мне иногда кажется, что люди галлюцинирует чаще, чем ЛЛМ
ALEX AVERT@avert
Хорошо написано но лучше бы проще и без лишней воды
Даниил@dahzz
не просто так телеграм создавал эту функцию (лол)
NO. 555
(лол)
ALEX AVERT@avert
выжимка если честно так себе
Даниил@dahzz
Да я тоже поражаюсь как можно было такие алгоритмы выжимки сделать их командой телеги
Anonymous
они квен прикрутили, какие нахрен алгоритмы?!!!!
Даниил@dahzz
ну дай попроще то поговорить, чо душнить 😭
Анастасия@stdrhv
Пусть общается ребенок
Даниил@dahzz
да, разрешите пожалуйста 🙏
Анастасия@stdrhv
Разрешаю
ALEX AVERT@avert
это скорее "жадный промпт" =)
Сергей Хотян@sergey_hotyan
Сегодня как раз работал с Claude и начал получать странные ответы, но до этого над другими задачами все шло гладко. Разница оказалась в том, что где я не понимал глубины, то и результаты получал плохие и наоборот. В итоге в другом чате сделал разбор, написал что я не понимаю всего и модель мне выдала гениальный результат и тут я читаю статью эту
Сергей Хотян@sergey_hotyan
Суть в том, что я работаю с людьми и проектами уже 6 лет и понял, что большинство руководителей не умеют формулировать правильно мысли, а значит ставить корректно задачи. В итоге когда я разобрался со своим мышлением, то понял, что инструменты и системы вторичны, а мышление первично. Сейчас я смотрю на все под другим углом, не кто делает неправильно люди / модели, а где я сделал что-то не так и тогда приходят ответы, нужные люди и тд
TT@True_Tuning
Может разобраться с мышлением? И что это такое? :) что за процесс и все еще станет проще :)
Сергей Хотян@sergey_hotyan
Есть вопросы, на которые коротко не ответить, мне пришлось потратить очень много лет на то чтобы понять это:

Ты можешь себя только запутать ровно также как словосочетанием "денежный канал"

Главное что нужно понять
Что есть простая механика

Ты выбрал и создал всё что с тобой происходит
А значит можешь и поменять

В данном случае ты говоришь о том что откуда эти состояния, которые не выбирал

Выбирал, но бессознательно то есть на автоматизме
Сейчас понял что если в автоматическом режиме оставить выбор то ничего хорошего ждать не стоит

А значит нужно научиться выбирать

И вот здесь приходит понимание выбора
А выбор это и есть момент осознания
Проще говоря если есть замысел что то реализовать то ты будешь спрашивать себя а вот это целесообразное поведение оно содействует реализации замысла или мешает

И вот и есть осознанность

По сути ты начинаешь отслеживать мысль "это мешает или помогает"

Если ты чувствуешь себя хреново и не можешь сосредоточиться, то это состояние мешает или помогает

Если оно мешает то зачем я выбираю его чувствовать

Если я выбираю это чувствовать и оно не выгодно, то тогда я выберу другое чувствовать

И тогда ты встречаешься с выученным поведением, то есть бессознательным шаблоном

Что если происходит вот так, так и так то надо переживать, нервничать и активно что-то делать

И это только кусочек, а чтобы понять нужно копать глубже!!!
TT@True_Tuning
для меня все просто, я вижу суть, и обладаю корневой информацией. Все гоооораздо проще. :)) Истина едина! Заблуждения многолики! А правда! :) у Каждого своя! :)
Join discussion on TelegramComments are synced from Telegram

Связанные темы

Читать далее