Сэкономить на токенах в 10 раз

Сэкономить на токенах в 10 раз

В наивной реализации нейросеть читает чат каждый раз заново и прогоняет через видеокарту всю историю диалога – хотя от запроса к запросу старые реплики не менялись. Для оптимизации провайдеры придумали кэширование – оно позволяет посчитать этот кусок однажды и дальше подставлять готовым. У Anthropic, например, чтение из кэша стоит раз в десять дешевле обычного, плюс ответ приходит быстрее.

К сожалению, лекарство неполное. Кэш живёт в памяти видеокарты, а её мало и она дорогая, поэтому под нагрузкой старые куски вытесняются и всё опять считается заново. Есть и привязка ко времени – отошёл человек от чата на час, вернулся, а контекст уже протух. В итоге глобально проблема никуда не делась – её просто немного сгладили.

Идея #стартапдня Tensormesh – не выбрасывать посчитанное, когда в видеопамяти кончается место, а сгружать кэш ниже: в обычную оперативную память, на SSD, в сетевое хранилище. Заодно он становится общим для всех видеокарт разом. Готовый кусок тогда переживает и вытеснение, и паузу, и переезд на другой сервер, а пересчитывать приходится заметно реже.

Движок можно скачать и использовать бесплатно. Он относительно популярен, на Github у проекта 9 600 звезд. У Nginx для сравнения 31 000, у OpenClaw 380 000. Зарабатывает Tensormesh на собственном хостинге чужих opensource моделей. Его формула – “кэшированные токены отдаем бесплатно”. Утверждается, что в каких-то сценариях это выйдет и в 10 раз дешевле обычной цены.

https://www.tensormesh.ai/

#ai #технология #rounda #сша

Стартап дня. Александр Горный.

740 публикаций на visbl.me

Авторский канал о стартапах и интернет-бизнесе. Реклама на этом канале: https://docs.google.com/presentation/d/1BFSEj7FEQZpB4K83iBXo1yqIoPnwJaVGpsyKDHKSX0s/edit РКН: https://clck.ru/3FPm3j Личный аккаунт: @gornal Реклама: @Vzuhcha ВП нет

💬Discussion (2)

Artur Tuzbekov@turchan•Jun 22

Типа CDN для нейросетей 🙂

Глеб@foxruso•Jun 22

идея норм, но какие блин видеокарты
anthropic claude гоняет в основном на trainium и tpu (один project rainier это больше ляма чипов trainium2) плюс часть на nvidia это не видюхи а спец ускорители.
у датацентровых даже видеовыхода нет
сам кэш из памяти ускорителя выгружать тут все ок но про железо перепутаны термины

Join discussion on TelegramComments are synced from Telegram

Сэкономить на токенах в 10 раз

💬Discussion (2)

Читать далее

Taxfix через 4 года

Как заработать на Яндекс.Сплит и его облигациях?

Не халявщик, а партнер!

Как начать свой бизнес без страха и рутинных проблем?

Обратная сторона вайбкодинга