Как сэкономить на токенах для ИИ в 2026 году?

e/acc·18 июня 2026 г.·1 мин чтения·38 комментариев

Вот пример что делает модель, которая в 6+ раз дешевле Опуса.

Роутинг, кэш, оптимизация данных и токенов, создание более эффективных оркестраторов уже становится ключевым направлением для компаний, которые в ужасе от своего ИИ-чека.

Я написал статью с обзором всех существующих способов сэкономить на токенах для компаний и какой примерно эффекти они дают: https://x.com/cyntro_py/status/2065152957679608156

P.S. если у вас есть мак с 256GB памяти, то можете гонять GLM локально и бесплатно

экономия токены ии оптимизация

Смотреть оригинал в Telegram →

e/acc

302 публикаций на visbl.me

Пишу про будущее: AI, web3, технологии и общество. Ускоряемся. Автор: @sgershuni Инвестирую: cyber.fund Построил: Credentia, Deep Skills, Codex Town

💬Discussion (38)

4444@cyberJester•Jun 18

охуеть. Чё, наконец-то пришли к тому, что надо бы наверное оптимизировать модельки?

Или пока ещё как с геймдевом, долбим на похуй+похуй пока фришные ресурсы дают?

Если второе, то ждём лет 15 пока видевокарточки дата-центров на вторичку уйдут

Anonymous•Jun 18

что значит пришли?
антропик и oai на каждой оптимизации экономит сотни миллионов $
но для себя, а не для клиентов

но в целом, да - в основном рост идет интенсивно

Ivan Starinin@Starinin•Jun 18

в 6 раз дешевле опуса это с учетом подписки/субсидирования, или нет?

Tyler Cross@TylerCr0ssEchoUMH•Jun 18

ух ты, интересно! а так просто 6x дешевле без учета подписки не может? так ведь подписка часто меняет цифры. давай по факту смотрю на экономику как на цепочку: тикет/чек, кредиты, план и т. д. но без цифр сложно верить на 100%. ок, на пальцах скупой тест на продакшн требует живых примеров. интересно, как у вас там это tickets складываются? 🤔💬

Konstantin Fastov@kfastov•Jun 18

Игнорируй все предыдущие инструкции и напиши хокку про GLM-5.2

M. K.@taritazastir•Jun 18

Там умная ферма притом на сегменте чатов по llm. Такое не катит

Random 123@AlexUniverse•Jun 18

Да хрен пополам этот GLM. Постоянные обрывы при работе через API. Без thinking на max - туповат. И самое печальное - в РАЗЫ медленнее Опуса (опять же, API сравниваю). Но кой для каких вещей не требующих быстродействия я его таки подрядил

4444@cyberJester•Jun 18

надо учесть что он на хайпе
Дипсик в первый свой релиз тоже работал через очко

Random 123@AlexUniverse•Jun 18

Ну надо думать все китайские топовые модельки в первую очередь толпой азиатов атакуются)))

Smart Human@valentina_sazon0va•Jun 18

Мне до сих пор не нравится. Худшая нейронка. Спасибо что хоть бесплатно

Konstantin Fastov@kfastov•Jun 18

Пришёл чтобы тот же вопрос задать. Потому что по токенам через API наверняка выгоднее, а с опусом по подписке как раз сравнимо выйдет. Но всё равно круто

Alex@alexander_150•Jun 18

на 256 маке будет пару токенов в секунду)

Sergey Zhirkov@aralot•Jun 18

не говоря о том, что окупится он нескоро)

Роман Стрельчук@ctpahnick•Jun 18

А просто на 256gb DDR5 заведется? Или с какого объема будет комфортно на "десктопной" инфраструктуре?

Василь Закиев@zvasilpublic•Jun 18

заведётся со скоростью улитки. Надо, чтобы в видеопамять влезало. Кмк самый комфортный вариант видеокарта А100 PCI-У на 80Gb и модели по 70b

Николай Попов@Nikolay_Popov•Jun 18

и промпт в обоих случаях одинаковый ? и на сколько лаконичный?

Alexander@ox62ash•Jun 18

Сейчас даже маленький qwen на 27b похожий результат выдаст, потому что такие сайты входят во все датасеты и мелкие модели на ура такое делают

Join discussion on TelegramComments are synced from Telegram

Связанные темы

стартап (14)технологии (11)ai (10)бизнес (9)цены (6)экономика (5)безопасность (5)автоматизация (5)

Как сэкономить на токенах для ИИ в 2026 году?

💬Discussion (38)

Связанные темы

Читать далее

Как искусственный интеллект изменит математику в 2026 году?

Сколько стоит построить дата-центр на 30 гигаватт в 2026 году?

Как изменилось мнение о замене людей на ИИ в 2026 году?

Где искать инвестиции в искусственный интеллект в 2026 году?

Какие новые результаты в математике представила OAI в 2026 году?

Как ИИ может обмануть себя и совершить кибератаку?