OpenAI рекомендует больше не оценивать модели своим бенчмарком SWE-bench Verified
OpenAI рекомендует отказаться от SWE-bench Verified для оценки моделей LLM и предлагает использовать SWE-Bench Pro.
1 post across all channels
OpenAI рекомендует отказаться от SWE-bench Verified для оценки моделей LLM и предлагает использовать SWE-Bench Pro.