Как работает модель Mythos и почему она эффективна?

e/acc··1 мин чтения·34 комментария
Mythos является очень эффективной моделью в плане токенов. Причиной этому, скорее всего, является использование подхода похожего на LoopLM от ByteDance (в соавторстве с Бенжио).

Не вдаваясь в математику, это значит что модель вместо генерации chain-of-thought размышлений в виде текста, делает это в своем скрытом, латентном пространстве без какого-либо промежуточного аутпута. При тренировке, модель сама учится тому когда ей нужно делать несколько циклов инфренса для более сложных задач.

Если это так, то это дает большую экономию в токенах, и одновременно позволяет модели более «глубоко» думать над задачами, которые трудно решить обычной цепочкой рассуждений.
e/acc
e/acc

140 публикаций на visbl.me

Пишу про будущее: AI, web3, технологии и общество. Ускоряемся. Автор: @sgershuni Инвестирую: cyber.fund Построил: Credentia, Deep Skills, Codex Town

💬Discussion (34)

Aleksandr Bukhalenkov@bukhalenkov
Чего ж тогда она такая "супер-пупер" дорогая?
Valentin@seniorkonung
Так в этом и суть. Токены дороже, но теперь их меньше и они качественней.

Хотя смысл от этого, если нам все равно не дают пощупать)
Anonymous
А вы пробовали загрузить 20 триллионов параметров в память?
Random 123@AlexUniverse
Хотеть🥸
Даниил@dahzz
то есть она теперь будет в закрытом контуре думать глубже? это как если получается она бы перешла на эмодзи только тут - в черной коробке. т.е. это повышение уровня эмерджентности когда она непонятно что думает но эффективнее?
Random 123@AlexUniverse
Изучите матчасть как работают LLM, да и в целом нейросети)
Даниил@dahzz
ну нет, я имею в виду это понятно что она внутри не больно наблюдаема, просто теперь это новый слой скрытого
Anonymous
Это не совсем слой. Это цикл трансформера новый. И отдельная маленькая 1-2В нейронка для «перевода» этого из латентного пространства.
Даниил@dahzz
теперь понял
Anonymous
То есть она сама себя запускает заново, но без декодера
Be
Коконат же

Неужели реализовали?
Alex | Will AI replace your job? |myJobRisk.com@alexander_150
тоесть раньше по мыслям могли хоть понять че задумал, а сча все скрыто будет
AntKeeper@AntKeeper
Не совсем скрыто, они там наблюдают какие фичи активируются, типа чувства вины например или грусти.
Join discussion on TelegramComments are synced from Telegram

Связанные темы

Читать далее