Как DeepSeek повлиял на развитие OpenClaw?
Не для всех очевидный факт, но взлет openclaw это прямое следствие DeepSeek.
Объясню:
- дипсик первым показал что RL среды с проверяемым результатом масштабируются, и в масштабе дают существенный прирост способностей моделей (2024, можно сказать что о1 был первым но они не написали внятного пейпера)
- затем потребовался год чтобы фронтир лабы создали РЕАЛЬНО масштабируемые среды для long-running / large-context задач типа кода
- это привело к Opus 4.5, который благодаря RL стал крутейшей агентской моделью, которая не теряется в длинных задач, навигирует в баше и может себя вернуть на русло истины.
Итого: кроме претрейн скейлинга (который пока никуда не делся), у нас работает GRPO / RL with Verifiable Rewards скейлинг.
Или совсем простыми словами: скорость «поумнения» LLM удвоилась за год (в самом консервативном случае, в реальности тут экспонента)
Объясню:
- дипсик первым показал что RL среды с проверяемым результатом масштабируются, и в масштабе дают существенный прирост способностей моделей (2024, можно сказать что о1 был первым но они не написали внятного пейпера)
- затем потребовался год чтобы фронтир лабы создали РЕАЛЬНО масштабируемые среды для long-running / large-context задач типа кода
- это привело к Opus 4.5, который благодаря RL стал крутейшей агентской моделью, которая не теряется в длинных задач, навигирует в баше и может себя вернуть на русло истины.
Итого: кроме претрейн скейлинга (который пока никуда не делся), у нас работает GRPO / RL with Verifiable Rewards скейлинг.
Или совсем простыми словами: скорость «поумнения» LLM удвоилась за год (в самом консервативном случае, в реальности тут экспонента)
💬Discussion (13)
Многие удивляются успеху OpenClaw, но на самом деле это закономерный результат того переворота, который совершил DeepSeek. Чтобы понять суть, давайте уйдем от сложных терминов.
Долгое время ИИ учили как студента-теоретика: давали читать миллионы книг (это называется Pre-training). Но недавно подход изменился.
Вот как это произошло, шаг за шагом:
Эффект «Решебника» (DeepSeek): Раньше модели просто запоминали текст. DeepSeek (и частично OpenAI с моделью o1) первыми доказали: если заставить ИИ не просто читать, а решать задачи и самому проверять свои ответы (как сверяться с ответами в конце учебника), то модель умнеет гораздо быстрее. Это и есть то самое RL (Reinforcement Learning) — обучение через практику и исправление ошибок.
Создание «Тренировочных полигонов»: Индустрии потребовался год, чтобы создать сложные условия для тренировок. Теперь ИИ учат не просто писать код, а вести длинные проекты: самому запускать программы, искать ошибки, исправлять их и пробовать снова, пока не получится идеально.
Появление автономных сотрудников (Opus 4.5): Благодаря этим тренировкам появился Opus 4.5. Это уже не просто чат-бот, который пишет текст, а агент. Он как самостоятельный сотрудник: не теряет нить в длинных задачах, умеет пользоваться рабочими инструментами (терминалом/консолью) и, если зашел в тупик, сам возвращается назад и находит правильный путь.
Итого: У нас теперь есть два двигателя прогресса.
ИИ всё еще «читает книги» (учится на данных).
ИИ начал «набивать руку» на практике с самопроверкой (новый метод).
Благодаря этому второму двигателю скорость развития ИИ за последний год как минимум удвоилась (а реально — растет по экспоненте).
Эволюция идет к нейросимволическим языкам типа Scallop, где логическое программирование встречается с дифференцируемым выводом.
Для координации в экономике — языки вроде AgentML с детерминированными state machines и формальной верификацией.
Средняя перспектива
Языки с gradient-based program synthesis, где код пишется не вручную, а находится в пространстве программ через оптимизацию.
Execution contracts для автономных агентов.
Радикальное видение
Полностью латентные языки программирования, где "исходный код" — это точка в learned program space, а интерпретатор — нейросеть, обученная выполнению. Человекочитаемое представление генерируется опционально для аудита, как сейчас генерируется дизассемблированный код.
Мне было бы интересно поэкспериментировать если кто то занимается такими разработками
https://telegra.ph/HhH-02-17-12
На этом этапе как будто бы можно выбить нафиг даже возможность контроля
Думаю, что огромная тема может быть!