Как использовать ультра-быструю модель для генерации приложений?

Новый ультра-быстрый сервис LLM, с которым можно пообщаться тут.
15 тыс токенов в секунду - она может генерировать примерно десять next.js/react приложений в секунду.
это трехбитная квантизация ламы 3.1, поэтому каких-то супер умных вещей от нее ожидать не стоит, но модели поуменеют, а вот как использовать систему, которая пишет небольшую книгу за секунду еще предстоит осознать.
15 тыс токенов в секунду - она может генерировать примерно десять next.js/react приложений в секунду.
это трехбитная квантизация ламы 3.1, поэтому каких-то супер умных вещей от нее ожидать не стоит, но модели поуменеют, а вот как использовать систему, которая пишет небольшую книгу за секунду еще предстоит осознать.
💬Discussion (30)
Правда поменять модель после этого уже нельзя. Нужно делать новый чип
Ключевая идея Cerebras: вместо медленной внешней DRAM/HBM на чипе размещено 44 ГБ быстрой SRAM, распределённой по всем ядрам. Это устраняет узкое место по пропускной способности — данные никуда не «едут» по шине. Но Cerebras всё равно стримит веса, просто делает это очень быстро и по слоям. То есть веса всё ещё хранятся отдельно от логики вычислений.
Ключевая идея Taalas: веса не просто хранятся «рядом» с вычислениями — они физически закодированы в транзисторах, образуя структуру самой схемы. Доступа к памяти нет вообще — вычисление «уже знает» все веса на уровне схемотехники.
https://t.me/denissexy/11235?single