Anthropic проверил, как AI-агенты торгуются между собой

Anthropic проверил, как AI-агенты торгуются между собой

В эксперименте Project Deal сотрудники Anthropic дали Claude список вещей, которые хотят продать или купить. Дальше агенты сами писали объявления, делали офферы, торговались и закрывали сделки. Люди подключались уже в самом конце, когда нужно было физически обменяться вещами.

Всего участвовали 69 сотрудников. Агенты заключили 186 сделок на сумму больше 4000 долларов. Среди лотов были сноуборд, велосипед, книги, шарики для пинг-понга и даже «день с собакой».

Качество модели напрямую влияло на результат. Claude Opus 4.5 в среднем выбивал лучшие условия, чем Haiku 4.5: продавал дороже и покупал дешевле. При этом люди с более слабым агентом почти не замечали, что их сделка хуже. Получается, что если за тебя покупает и продает AI, то преимущество будет у того, у кого лучше агент.

https://www.anthropic.com/features/project-deal

Авторский взгляд на новости технологий Реклама: https://docs.google.com/presentation/d/1glQMXYyKAYpzNP8VXzM4gl2YkEgLjkeD_Fxvzbu5QUE/edit РКН: https://clck.ru/3FPkup Личный аккаунт: @gornal О рекламе: @Vzuhcha ВП нет

💬Discussion (6)

George Ardeni@shevardg
Интересно, что
Антропик делал тест только между своими моделями, а в реальной жизни у одного агент на Клоде, у другого на ЧатГпт, у другого - на Kimi под капотом, у всех моделей разный «тюнинг».
Andrew Nenakhov@andrew_nenakhov
В реальной жизни проверять свежие чужие модели нет смысла, потому что ты видишь не модель, а только сервис, и как конкретно сегодня его выкрутили/лоботомировали сказать невозможно, если ты не контролируешь модель. Так что сравнить можно максимум с опенсорсными.
Maksim@dd_pymq
Либо результаты оказались не в их пользу, либо просто не хотели привлекать лишнее внимание к конкурентам
George Ardeni@shevardg
Смотря для чего - если задача проверить как справляется конкретно твоя модель с задачей (видимо у Антропик) - вероятно, да.
Если задача AEO сделать или - еще шире - продукт для агентской коммерции для продавцов - там, хочешь не хочешь, а придется сравнивать разные модели и как они себя ведут.
ImLex@im1ex
Главное - результат тестирования удачно говорит, что нужно платить больше.
Людмила С
А мы покупаем иди продаём? Оценка может поменяться на противоположную
Join discussion on TelegramComments are synced from Telegram

Связанные темы

Читать далее