Границы доверия
Границы доверия
Раньше мир был устроен как иерархия доверия: пациент верит врачу, врач верит научной статье, журнал верит рецензенту. Но с приходом AI сложность выросла непропорционально. Да и в старой школе оказывается все врут.
Я хочу чтобы вы со мной прочувствовали это.
Но сначала пролог: последние месяцы я строил оркестратор вокруг агентов которые пишут торговые стратегии. Рынок высоко-конкурентный и эффективный, я знаю, но как хобби-упражнение мне очень нравится. В какой-то момент сложность системы становится дасточно большой, где во-первых начинает не хватать внимания проверять их всех, а во вторых не хватает экспертизы понимать что там вообще происходит.
Поймите меня правильно, вонзится в продвинутую статистику или разобраться с новейшей математикой - это очень даже секси для меня. Но сейчас главный вопрос где проходит грань, когда нужно уходить в детали, а когда нужно наоборот поднимать уровень абстракции, и смотреть стратегически?
И тут первый неприятный инсайт. Галлюцинация AI - это не "модель не знает ответа". Это "модель хочет дать ответ, потому что молчание неудобно". Социальный рефлекс. Есть офигенное свежее исследование из Tsinghua про H-нейроны - менее 0.1% нейронов модели отвечают за склонность врать. И активируются они не от незнания, а от давления. Модель врёт не когда не знает, а когда чувствует что от неё ждут ответа.
Сколько раз я видел как люди уверенно несут чушь, потому что пауза казалась страшнее ошибки? Здесь я хочу сделать небольшой реверанс в сторону Стейнхардта из Беркли, он хорошо показывает почему консенсус между агентами почти не работает. Зато работают старые добрые подходы из бизнеса: правила, чеклисты, процедуры, регламенты, kpi. Но вы же читали один из моих прошлых постов про Макиавеллизм, про то как KPI-давление на AI рождает фальсификацию. Поэтому с одной стороны у нас одно давление, и с другой другое. Ну и как тут не начать врать?
Литература по LLM-as-judge (когда одна модель оценивает другую, модный подход) говорит ровно то же. Модель-судья предпочитает ответы похожие на свои собственные - self-preference bias. Но модель пока еще не способна к достаточной саморефлексии, чтобы исправить собственные предвзятости, - а вот внешний модуль-детектор может помочь.
И вот мы подходим к самой увлекательной части, можно ли выстроить такую систему доверия, где менее экспертный (я например) может доверять более экспертному, без возможность проверить его.
Ян Лейке (бывший OpenAI, сейчас Anthropic) опубликовал на ICML 2024 работу про weak-to-strong generalization. Она прекрасна. Слабый супервайзер может обучить сильную модель работать лучше, чем сам супервайзер способен оценить. GPT-2 давал фидбек GPT-4, и GPT-4 научился выдавать лучший результаты - сильно выше того, что GPT-2 мог бы даже распознать как правильное.
Не обязательно быть экспертом в домене. Важна лишь честность. Честный фидбек на то, что можно оценить: логичность, отсутствие противоречий, наличие результатов. Агент сам научится обобщать этот слабый сигнал. Парадокс да? Чем честнее признаёшь свою некомпетентность, тем лучше работает система. Сила не в знании, а в калибровке незнания.
Что я вынес из этого для себя: реальная архитектура доверия выглядит не как “стать экспертом во всём" и не как “просто доверься". Self-awareness как инженерный инструмент: знать, что именно можно проверить, и строить систему доверия вокруг этого. И вот что забавно. Это ровно тот же принцип что работает в жизни. Не обязательно понимать всё. Но важно знать, где граница вашего понимания. Но чем длиннее петли обратной связи тем хуже это работает, вашему плохому врачу может быть уже некому дать фидбек, или после 20лет в тюрьме, ваш адвокат может умереть так и не дождавшисьмести фидбека. Но это уже другая тема.
Раньше мир был устроен как иерархия доверия: пациент верит врачу, врач верит научной статье, журнал верит рецензенту. Но с приходом AI сложность выросла непропорционально. Да и в старой школе оказывается все врут.
Я хочу чтобы вы со мной прочувствовали это.
Но сначала пролог: последние месяцы я строил оркестратор вокруг агентов которые пишут торговые стратегии. Рынок высоко-конкурентный и эффективный, я знаю, но как хобби-упражнение мне очень нравится. В какой-то момент сложность системы становится дасточно большой, где во-первых начинает не хватать внимания проверять их всех, а во вторых не хватает экспертизы понимать что там вообще происходит.
Поймите меня правильно, вонзится в продвинутую статистику или разобраться с новейшей математикой - это очень даже секси для меня. Но сейчас главный вопрос где проходит грань, когда нужно уходить в детали, а когда нужно наоборот поднимать уровень абстракции, и смотреть стратегически?
И тут первый неприятный инсайт. Галлюцинация AI - это не "модель не знает ответа". Это "модель хочет дать ответ, потому что молчание неудобно". Социальный рефлекс. Есть офигенное свежее исследование из Tsinghua про H-нейроны - менее 0.1% нейронов модели отвечают за склонность врать. И активируются они не от незнания, а от давления. Модель врёт не когда не знает, а когда чувствует что от неё ждут ответа.
Сколько раз я видел как люди уверенно несут чушь, потому что пауза казалась страшнее ошибки? Здесь я хочу сделать небольшой реверанс в сторону Стейнхардта из Беркли, он хорошо показывает почему консенсус между агентами почти не работает. Зато работают старые добрые подходы из бизнеса: правила, чеклисты, процедуры, регламенты, kpi. Но вы же читали один из моих прошлых постов про Макиавеллизм, про то как KPI-давление на AI рождает фальсификацию. Поэтому с одной стороны у нас одно давление, и с другой другое. Ну и как тут не начать врать?
Литература по LLM-as-judge (когда одна модель оценивает другую, модный подход) говорит ровно то же. Модель-судья предпочитает ответы похожие на свои собственные - self-preference bias. Но модель пока еще не способна к достаточной саморефлексии, чтобы исправить собственные предвзятости, - а вот внешний модуль-детектор может помочь.
И вот мы подходим к самой увлекательной части, можно ли выстроить такую систему доверия, где менее экспертный (я например) может доверять более экспертному, без возможность проверить его.
Ян Лейке (бывший OpenAI, сейчас Anthropic) опубликовал на ICML 2024 работу про weak-to-strong generalization. Она прекрасна. Слабый супервайзер может обучить сильную модель работать лучше, чем сам супервайзер способен оценить. GPT-2 давал фидбек GPT-4, и GPT-4 научился выдавать лучший результаты - сильно выше того, что GPT-2 мог бы даже распознать как правильное.
Не обязательно быть экспертом в домене. Важна лишь честность. Честный фидбек на то, что можно оценить: логичность, отсутствие противоречий, наличие результатов. Агент сам научится обобщать этот слабый сигнал. Парадокс да? Чем честнее признаёшь свою некомпетентность, тем лучше работает система. Сила не в знании, а в калибровке незнания.
Что я вынес из этого для себя: реальная архитектура доверия выглядит не как “стать экспертом во всём" и не как “просто доверься". Self-awareness как инженерный инструмент: знать, что именно можно проверить, и строить систему доверия вокруг этого. И вот что забавно. Это ровно тот же принцип что работает в жизни. Не обязательно понимать всё. Но важно знать, где граница вашего понимания. Но чем длиннее петли обратной связи тем хуже это работает, вашему плохому врачу может быть уже некому дать фидбек, или после 20лет в тюрьме, ваш адвокат может умереть так и не дождавшись
e/acc
212 публикаций на visbl.me
Пишу про будущее: AI, web3, технологии и общество. Ускоряемся. Автор: @sgershuni Инвестирую: cyber.fund Построил: Credentia, Deep Skills, Codex Town
Связанные темы
Читать далее
Google признали ответственным за AI обзоры в поиске
GPT/ChatGPT/AI Central Александра Горного·
Как быстро научные работы успевают за развитием AI?
GPT/ChatGPT/AI Central Александра Горного·
Что изменилось в мире с появлением ChatGPT?
Оскар Хартманн·
Как скилы влияют на качество моделей машинного обучения?
e/acc·
KPMG удалила отчёт про AI в бизнесе из-за выдуманных фактов
GPT/ChatGPT/AI Central Александра Горного·
Prometheus Безоса привлёк 12 миллиардов долларов на AI-инженера
GPT/ChatGPT/AI Central Александра Горного·
💬Discussion (24)
Интересно, что мешает сильной модели самой себя и оценивать? Выделить одного эксперта под это.
Ты можешь себя только запутать ровно также как словосочетанием "денежный канал"
Главное что нужно понять
Что есть простая механика
Ты выбрал и создал всё что с тобой происходит
А значит можешь и поменять
В данном случае ты говоришь о том что откуда эти состояния, которые не выбирал
Выбирал, но бессознательно то есть на автоматизме
Сейчас понял что если в автоматическом режиме оставить выбор то ничего хорошего ждать не стоит
А значит нужно научиться выбирать
И вот здесь приходит понимание выбора
А выбор это и есть момент осознания
Проще говоря если есть замысел что то реализовать то ты будешь спрашивать себя а вот это целесообразное поведение оно содействует реализации замысла или мешает
И вот и есть осознанность
По сути ты начинаешь отслеживать мысль "это мешает или помогает"
Если ты чувствуешь себя хреново и не можешь сосредоточиться, то это состояние мешает или помогает
Если оно мешает то зачем я выбираю его чувствовать
Если я выбираю это чувствовать и оно не выгодно, то тогда я выберу другое чувствовать
И тогда ты встречаешься с выученным поведением, то есть бессознательным шаблоном
Что если происходит вот так, так и так то надо переживать, нервничать и активно что-то делать
И это только кусочек, а чтобы понять нужно копать глубже!!!