OpenAI рекомендует больше не оценивать модели своим бенчмарком SWE-bench Verified
OpenAI рекомендует больше не оценивать модели своим бенчмарком SWE-bench Verified
SWE-bench Verified придумали в OpenAI в 2024 году, чтобы замерять способности LLM к программированию.
Теперь выяснилось, что все модели «видели» часть заданий и методы их решения во время своего обучения. А более половины задач в нём вообще прописаны некорректно.
OpenAI предлагает пользоваться бенчмарком SWE-Bench Pro. Он тоже не идеален, но результаты даёт поточнее.
https://openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/
SWE-bench Verified придумали в OpenAI в 2024 году, чтобы замерять способности LLM к программированию.
Теперь выяснилось, что все модели «видели» часть заданий и методы их решения во время своего обучения. А более половины задач в нём вообще прописаны некорректно.
OpenAI предлагает пользоваться бенчмарком SWE-Bench Pro. Он тоже не идеален, но результаты даёт поточнее.
https://openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/
Read next
Как технологии заменяют людей в разных профессиях?
GPT/ChatGPT/AI Central Александра Горного•
Как работает функция напоминания авторизации в Manus?
GPT/ChatGPT/AI Central Александра Горного•
Маск признан виновным в том, что ввёл инвесторов Twitter в заблуждение своими постами в Twitter
GPT/ChatGPT/AI Central Александра Горного•
💬Discussion (1)