OpenAI рекомендует больше не оценивать модели своим бенчмарком SWE-bench Verified
OpenAI рекомендует отказаться от SWE-bench Verified для оценки моделей LLM и предлагает использовать SWE-Bench Pro.
1 публикация во всех каналах
OpenAI рекомендует отказаться от SWE-bench Verified для оценки моделей LLM и предлагает использовать SWE-Bench Pro.