OpenAI рекомендует больше не оценивать модели своим бенчмарком SWE-bench Verified

OpenAI рекомендует больше не оценивать модели своим бенчмарком SWE-bench Verified

SWE-bench Verified придумали в OpenAI в 2024 году, чтобы замерять способности LLM к программированию.

Теперь выяснилось, что все модели «видели» часть заданий и методы их решения во время своего обучения. А более половины задач в нём вообще прописаны некорректно.

OpenAI предлагает пользоваться бенчмарком SWE-Bench Pro. Он тоже не идеален, но результаты даёт поточнее.

https://openai.com/index/why-we-no-longer-evaluate-swe-bench-verif
ied/

💬Discussion (1)

Антон AI Coding@TonyManak
ну вот и вскрылась классика: как только бенч становится «главным», он тут же превращается в тренировочный датасет и цифры улетают в космос. у нас в команде после пары таких сюрпризов держим свой маленький eval на приватных багфиксах/PR — меньше красиво, но хоть понятно, что модель реально тянет. SWE-Bench Pro посмотрю, интересно насколько там жёстко отфильтровали утечки.
Join discussion on TelegramComments are synced from Telegram

Read next