Сэкономить на токенах в 10 раз
Сэкономить на токенах в 10 раз
В наивной реализации нейросеть читает чат каждый раз заново и прогоняет через видеокарту всю историю диалога – хотя от запроса к запросу старые реплики не менялись. Для оптимизации провайдеры придумали кэширование – оно позволяет посчитать этот кусок однажды и дальше подставлять готовым. У Anthropic, например, чтение из кэша стоит раз в десять дешевле обычного, плюс ответ приходит быстрее.
К сожалению, лекарство неполное. Кэш живёт в памяти видеокарты, а её мало и она дорогая, поэтому под нагрузкой старые куски вытесняются и всё опять считается заново. Есть и привязка ко времени – отошёл человек от чата на час, вернулся, а контекст уже протух. В итоге глобально проблема никуда не делась – её просто немного сгладили.
Идея #стартапдня Tensormesh – не выбрасывать посчитанное, когда в видеопамяти кончается место, а сгружать кэш ниже: в обычную оперативную память, на SSD, в сетевое хранилище. Заодно он становится общим для всех видеокарт разом. Готовый кусок тогда переживает и вытеснение, и паузу, и переезд на другой сервер, а пересчитывать приходится заметно реже.
Движок можно скачать и использовать бесплатно. Он относительно популярен, на Github у проекта 9 600 звезд. У Nginx для сравнения 31 000, у OpenClaw 380 000. Зарабатывает Tensormesh на собственном хостинге чужих opensource моделей. Его формула – “кэшированные токены отдаем бесплатно”. Утверждается, что в каких-то сценариях это выйдет и в 10 раз дешевле обычной цены.
https://www.tensormesh.ai/
#ai #технология #rounda #сша
В наивной реализации нейросеть читает чат каждый раз заново и прогоняет через видеокарту всю историю диалога – хотя от запроса к запросу старые реплики не менялись. Для оптимизации провайдеры придумали кэширование – оно позволяет посчитать этот кусок однажды и дальше подставлять готовым. У Anthropic, например, чтение из кэша стоит раз в десять дешевле обычного, плюс ответ приходит быстрее.
К сожалению, лекарство неполное. Кэш живёт в памяти видеокарты, а её мало и она дорогая, поэтому под нагрузкой старые куски вытесняются и всё опять считается заново. Есть и привязка ко времени – отошёл человек от чата на час, вернулся, а контекст уже протух. В итоге глобально проблема никуда не делась – её просто немного сгладили.
Идея #стартапдня Tensormesh – не выбрасывать посчитанное, когда в видеопамяти кончается место, а сгружать кэш ниже: в обычную оперативную память, на SSD, в сетевое хранилище. Заодно он становится общим для всех видеокарт разом. Готовый кусок тогда переживает и вытеснение, и паузу, и переезд на другой сервер, а пересчитывать приходится заметно реже.
Движок можно скачать и использовать бесплатно. Он относительно популярен, на Github у проекта 9 600 звезд. У Nginx для сравнения 31 000, у OpenClaw 380 000. Зарабатывает Tensormesh на собственном хостинге чужих opensource моделей. Его формула – “кэшированные токены отдаем бесплатно”. Утверждается, что в каких-то сценариях это выйдет и в 10 раз дешевле обычной цены.
https://www.tensormesh.ai/
#ai #технология #rounda #сша
Стартап дня. Александр Горный.
740 публикаций на visbl.me
Авторский канал о стартапах и интернет-бизнесе. Реклама на этом канале: https://docs.google.com/presentation/d/1BFSEj7FEQZpB4K83iBXo1yqIoPnwJaVGpsyKDHKSX0s/edit РКН: https://clck.ru/3FPm3j Личный аккаунт: @gornal Реклама: @Vzuhcha ВП нет
Читать далее
На самом старте сломалось партнерство. Довольно значимое – не жизнеопределяющее, но заработать вполне прилично планирова...
Стартап дня. Александр Горный.·
Taxfix через 4 года
Стартап дня. Александр Горный.·
Как заработать на Яндекс.Сплит и его облигациях?
Стартап дня. Александр Горный.·
Не халявщик, а партнер!
Стартап дня. Александр Горный.·
Как начать свой бизнес без страха и рутинных проблем?
Стартап дня. Александр Горный.·
Обратная сторона вайбкодинга
Стартап дня. Александр Горный.·
💬Discussion (2)
anthropic claude гоняет в основном на trainium и tpu (один project rainier это больше ляма чипов trainium2) плюс часть на nvidia это не видюхи а спец ускорители.
у датацентровых даже видеовыхода нет
сам кэш из памяти ускорителя выгружать тут все ок но про железо перепутаны термины