OpenAI рекомендует больше не оценивать модели своим бенчмарком SWE-bench Verified
OpenAI рекомендует больше не оценивать модели своим бенчмарком SWE-bench Verified
SWE-bench Verified придумали в OpenAI в 2024 году, чтобы замерять способности LLM к программированию.
Теперь выяснилось, что все модели «видели» часть заданий и методы их решения во время своего обучения. А более половины задач в нём вообще прописаны некорректно.
OpenAI предлагает пользоваться бенчмарком SWE-Bench Pro. Он тоже не идеален, но результаты даёт поточнее.
https://openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/
SWE-bench Verified придумали в OpenAI в 2024 году, чтобы замерять способности LLM к программированию.
Теперь выяснилось, что все модели «видели» часть заданий и методы их решения во время своего обучения. А более половины задач в нём вообще прописаны некорректно.
OpenAI предлагает пользоваться бенчмарком SWE-Bench Pro. Он тоже не идеален, но результаты даёт поточнее.
https://openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/
GPT/ChatGPT/AI Central Александра Горного
465 публикаций на visbl.me
Авторский взгляд на новости технологий Реклама: https://docs.google.com/presentation/d/1glQMXYyKAYpzNP8VXzM4gl2YkEgLjkeD_Fxvzbu5QUE/edit РКН: https://clck.ru/3FPkup Личный аккаунт: @gornal О рекламе: @Vzuhcha ВП нет
Связанные темы
Читать далее
Anthropic удвоил лимиты, потому что взял в аренду дата-центр Маска
GPT/ChatGPT/AI Central Александра Горного·
Впервые сократилось время, которое люди тратят на соцсети
GPT/ChatGPT/AI Central Александра Горного·
Вакансия для Team Lead
GPT/ChatGPT/AI Central Александра Горного·
Anthropic выпустил шаблоны агентов для финансовых услуг
GPT/ChatGPT/AI Central Александра Горного·
Каковы были доходы инвесторов OpenAI по сравнению с другими компаниями?
Венчур Менна и Горного·
Microsoft, Google и xAI дадут властям США ранний доступ к новым моделям
GPT/ChatGPT/AI Central Александра Горного·
💬Discussion (1)