OpenAI рекомендует больше не оценивать модели своим бенчмарком SWE-bench Verified
OpenAI рекомендует больше не оценивать модели своим бенчмарком SWE-bench Verified
SWE-bench Verified придумали в OpenAI в 2024 году, чтобы замерять способности LLM к программированию.
Теперь выяснилось, что все модели «видели» часть заданий и методы их решения во время своего обучения. А более половины задач в нём вообще прописаны некорректно.
OpenAI предлагает пользоваться бенчмарком SWE-Bench Pro. Он тоже не идеален, но результаты даёт поточнее.
https://openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/
SWE-bench Verified придумали в OpenAI в 2024 году, чтобы замерять способности LLM к программированию.
Теперь выяснилось, что все модели «видели» часть заданий и методы их решения во время своего обучения. А более половины задач в нём вообще прописаны некорректно.
OpenAI предлагает пользоваться бенчмарком SWE-Bench Pro. Он тоже не идеален, но результаты даёт поточнее.
https://openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/
GPT/ChatGPT/AI Central Александра Горного
382 публикаций на visbl.me
Авторский взгляд на новости технологий Реклама: https://docs.google.com/presentation/d/1glQMXYyKAYpzNP8VXzM4gl2YkEgLjkeD_Fxvzbu5QUE/edit РКН: https://clck.ru/3FPkup Личный аккаунт: @gornal О рекламе: @Vzuhcha ВП нет
Связанные темы
Читать далее
Вышел Claude Design
GPT/ChatGPT/AI Central Александра Горного·
OpenAI выпустила GPT-Rosalind — модель для помощи в разработке лекарств
GPT/ChatGPT/AI Central Александра Горного·
Как внедрить AI-агентов в малый и средний бизнес?
GPT/ChatGPT/AI Central Александра Горного·
Perplexity запустила свой OpenClaw
GPT/ChatGPT/AI Central Александра Горного·
Codex научили управлять компьютером
GPT/ChatGPT/AI Central Александра Горного·
YouTube разрешил отключать Shorts
GPT/ChatGPT/AI Central Александра Горного·
💬Discussion (1)