Как DeepSeek повлиял на развитие OpenClaw?

e/acc1 min read13 comments
Не для всех очевидный факт, но взлет openclaw это прямое следствие DeepSeek.

Объясню:
- дипсик первым показал что RL среды с проверяемым результатом масштабируются, и в масштабе дают существенный прирост способностей моделей (2024, можно сказать что о1 был первым но они не написали внятного пейпера)

- затем потребовался год чтобы фронтир лабы создали РЕАЛЬНО масштабируемые среды для long-running / large-context задач типа кода

- это привело к Opus 4.5, который благодаря RL стал крутейшей агентской моделью, которая не теряется в длинных задач, навигирует в баше и может себя вернуть на русло истины.

Итого: кроме претрейн скейлинга (который пока никуда не делся), у нас работает GRPO / RL with Verifiable Rewards скейлинг.

Или совсем простыми словами: скорость «поумнения» LLM удвоилась за год (в самом консервативном случае, в реальности тут экспонента)

💬Discussion (13)

Arseniy Kamyshev@nafigator
А где в этом всём Gemini со своим гигантским контекстом? Он проигрывает технически или в пиаре?
Anonymous
Там же, все лабы делают одно и то же
Alexander
Почему OpenClaw так популярен: объяснение «на пальцах»
Многие удивляются успеху OpenClaw, но на самом деле это закономерный результат того переворота, который совершил DeepSeek. Чтобы понять суть, давайте уйдем от сложных терминов.
Долгое время ИИ учили как студента-теоретика: давали читать миллионы книг (это называется Pre-training). Но недавно подход изменился.
Вот как это произошло, шаг за шагом:
Эффект «Решебника» (DeepSeek): Раньше модели просто запоминали текст. DeepSeek (и частично OpenAI с моделью o1) первыми доказали: если заставить ИИ не просто читать, а решать задачи и самому проверять свои ответы (как сверяться с ответами в конце учебника), то модель умнеет гораздо быстрее. Это и есть то самое RL (Reinforcement Learning) — обучение через практику и исправление ошибок.
Создание «Тренировочных полигонов»: Индустрии потребовался год, чтобы создать сложные условия для тренировок. Теперь ИИ учат не просто писать код, а вести длинные проекты: самому запускать программы, искать ошибки, исправлять их и пробовать снова, пока не получится идеально.
Появление автономных сотрудников (Opus 4.5): Благодаря этим тренировкам появился Opus 4.5. Это уже не просто чат-бот, который пишет текст, а агент. Он как самостоятельный сотрудник: не теряет нить в длинных задачах, умеет пользоваться рабочими инструментами (терминалом/консолью) и, если зашел в тупик, сам возвращается назад и находит правильный путь.
Итого: У нас теперь есть два двигателя прогресса.
ИИ всё еще «читает книги» (учится на данных).
ИИ начал «набивать руку» на практике с самопроверкой (новый метод).
Благодаря этому второму двигателю скорость развития ИИ за последний год как минимум удвоилась (а реально — растет по экспоненте).
Aleksandr Bukhalenkov@bukhalenkov
Хорошая аналогия, спасибо. Есть же польза в ии обьяснялках!)
Alexander
Я выступление в детском саду для 3.5лет готовил через Gemini, по Computer Science. Норм вроде бы зашло.
!@Illliiillllll
Напиши пожалуйста что нибудь про специфические "языки программирования" для нейронок, если их можно вообще так назвать. Мне кажется очевидным что человекоориентированный код должен быстро исчезнуть, но не хватает экспертизы понять варианты развития, которые предлагает нейронка. Интересно кто сейчас копает эффективно в эту сторону

Эволюция идет к нейросимволическим языкам типа Scallop, где логическое программирование встречается с дифференцируемым выводом.
Для координации в экономике — языки вроде AgentML с детерминированными state machines и формальной верификацией.

Средняя перспектива
Языки с gradient-based program synthesis, где код пишется не вручную, а находится в пространстве программ через оптимизацию.
Execution contracts для автономных агентов.

Радикальное видение
Полностью латентные языки программирования, где "исходный код" — это точка в learned program space, а интерпретатор — нейросеть, обученная выполнению. Человекочитаемое представление генерируется опционально для аудита, как сейчас генерируется дизассемблированный код.

Мне было бы интересно поэкспериментировать если кто то занимается такими разработками
Александр@zel_as
Вообще это странно, тоже самое, что давайте поговорим про "Ничто" то есть мы это не можем осознать, зачем нам язык программирования, который мы сам не в состоянии понимать, это же Black box
!@Illliiillllll
Язык может включать правила поведения в экономической среде для агентов. Что бы они могли там ориентироваться с помощью научных законов, оптимизировать экономику. Туда же сразу добавить экономические стимулы более подходящие под задачу. Просто подумать о таком капец как интересно же.

https://telegra.ph/HhH-02-17-12
!@Illliiillllll
То есть система может быть такой что даже если ты open AI через 10 лет, то тебе придется вести себя хорошо в экономическом плане. Координироваться в этом слое, иначе у тебя будут просто фантики.

На этом этапе как будто бы можно выбить нафиг даже возможность контроля
Anonymous
Я бы с удовольствием почитал, но мало что сам знаю про это.

Думаю, что огромная тема может быть!
Aleksandr Bukhalenkov@bukhalenkov
Интересно, как применить подобное grpo для обучения не модели, а уже агента уже в своей организации. Поставил openclaw skill self reflection, допилил его чуть, надо время увидеть результатат..хочется чтоб постоянно само обучался
Evgen@dzenmail
так что закон мура можем принять и для ллмок?
Join discussion on TelegramComments are synced from Telegram

Read next