Как работает модель Mythos и почему она эффективна?
Mythos является очень эффективной моделью в плане токенов. Причиной этому, скорее всего, является использование подхода похожего на LoopLM от ByteDance (в соавторстве с Бенжио).
Не вдаваясь в математику, это значит что модель вместо генерации chain-of-thought размышлений в виде текста, делает это в своем скрытом, латентном пространстве без какого-либо промежуточного аутпута. При тренировке, модель сама учится тому когда ей нужно делать несколько циклов инфренса для более сложных задач.
Если это так, то это дает большую экономию в токенах, и одновременно позволяет модели более «глубоко» думать над задачами, которые трудно решить обычной цепочкой рассуждений.
Не вдаваясь в математику, это значит что модель вместо генерации chain-of-thought размышлений в виде текста, делает это в своем скрытом, латентном пространстве без какого-либо промежуточного аутпута. При тренировке, модель сама учится тому когда ей нужно делать несколько циклов инфренса для более сложных задач.
Если это так, то это дает большую экономию в токенах, и одновременно позволяет модели более «глубоко» думать над задачами, которые трудно решить обычной цепочкой рассуждений.
e/acc
140 публикаций на visbl.me
Пишу про будущее: AI, web3, технологии и общество. Ускоряемся. Автор: @sgershuni Инвестирую: cyber.fund Построил: Credentia, Deep Skills, Codex Town
Связанные темы
Читать далее
Почему ИИ модели не справляются с долгосрочными задачами?
e/acc·
OpenAI всё-таки выпустит новую мощную модель
GPT/ChatGPT/AI Central Александра Горного·
Как настроить чат-агента для лучшего взаимодействия?
e/acc·
К чему приведет использование LLM в повседневной жизни?
e/acc·
Как нанимать специалистов в эпоху AI?
e/acc·
Meta* выпустила Muse Spark — первую модель после перестройки всего AI-направления
GPT/ChatGPT/AI Central Александра Горного·
💬Discussion (34)
Хотя смысл от этого, если нам все равно не дают пощупать)
Неужели реализовали?