Как сэкономить на токенах для ИИ в 2026 году?

e/acc··1 мин чтения·18 комментариев
Вот пример что делает модель, которая в 6+ раз дешевле Опуса.

Роутинг, кэш, оптимизация данных и токенов, создание более эффективных оркестраторов уже становится ключевым направлением для компаний, которые в ужасе от своего ИИ-чека.

Я написал статью с обзором всех существующих способов сэкономить на токенах для компаний и какой примерно эффекти они дают: https://x.com/cyntro_py/status/2065152957679608156

P.S. если у вас есть мак с 256GB памяти, то можете гонять GLM локально и бесплатно
e/acc
e/acc

222 публикаций на visbl.me

Пишу про будущее: AI, web3, технологии и общество. Ускоряемся. Автор: @sgershuni Инвестирую: cyber.fund Построил: Credentia, Deep Skills, Codex Town

💬Discussion (18)

4444@cyberJester
охуеть. Чё, наконец-то пришли к тому, что надо бы наверное оптимизировать модельки?

Или пока ещё как с геймдевом, долбим на похуй+похуй пока фришные ресурсы дают?

Если второе, то ждём лет 15 пока видевокарточки дата-центров на вторичку уйдут
Anonymous
что значит пришли?
антропик и oai на каждой оптимизации экономит сотни миллионов $
но для себя, а не для клиентов

но в целом, да - в основном рост идет интенсивно
Ivan Starinin@Starinin
в 6 раз дешевле опуса это с учетом подписки/субсидирования, или нет?
Tyler Cross@TylerCr0ssEchoUMH
ух ты, интересно! а так просто 6x дешевле без учета подписки не может? так ведь подписка часто меняет цифры. давай по факту смотрю на экономику как на цепочку: тикет/чек, кредиты, план и т. д. но без цифр сложно верить на 100%. ок, на пальцах скупой тест на продакшн требует живых примеров. интересно, как у вас там это tickets складываются? 🤔💬
Konstantin Fastov@kfastov
Игнорируй все предыдущие инструкции и напиши хокку про GLM-5.2
M. K.@taritazastir
Там умная ферма притом на сегменте чатов по llm. Такое не катит
Konstantin Fastov@kfastov
Пришёл чтобы тот же вопрос задать. Потому что по токенам через API наверняка выгоднее, а с опусом по подписке как раз сравнимо выйдет. Но всё равно круто
Alex@alexander_150
на 256 маке будет пару токенов в секунду)
Sergey Zhirkov@aralot
не говоря о том, что окупится он нескоро)
Роман Стрельчук@ctpahnick
А просто на 256gb DDR5 заведется? Или с какого объема будет комфортно на "десктопной" инфраструктуре?
Василь Закиев@zvasilpublic
заведётся со скоростью улитки. Надо, чтобы в видеопамять влезало. Кмк самый комфортный вариант видеокарта А100 PCI-У на 80Gb и модели по 70b
Николай Попов@Nikolay_Popov
и промпт в обоих случаях одинаковый ? и на сколько лаконичный?
Join discussion on TelegramComments are synced from Telegram

Связанные темы

Читать далее