OpenAI рекомендует больше не оценивать модели своим бенчмарком SWE-bench Verified

GPT/ChatGPT/AI Central Александра Горного·25 февраля 2026 г.·1 мин чтения·1 комментарий

OpenAI рекомендует больше не оценивать модели своим бенчмарком SWE-bench Verified

SWE-bench Verified придумали в OpenAI в 2024 году, чтобы замерять способности LLM к программированию.

Теперь выяснилось, что все модели «видели» часть заданий и методы их решения во время своего обучения. А более половины задач в нём вообще прописаны некорректно.

OpenAI предлагает пользоваться бенчмарком SWE-Bench Pro. Он тоже не идеален, но результаты даёт поточнее.

https://openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/

openai модели бенчмарк программирование llm

Смотреть оригинал в Telegram →

GPT/ChatGPT/AI Central Александра Горного

465 публикаций на visbl.me

Авторский взгляд на новости технологий Реклама: https://docs.google.com/presentation/d/1glQMXYyKAYpzNP8VXzM4gl2YkEgLjkeD_Fxvzbu5QUE/edit РКН: https://clck.ru/3FPkup Личный аккаунт: @gornal О рекламе: @Vzuhcha ВП нет

💬Discussion (1)

Антон AI Coding@TonyManak•Feb 25

ну вот и вскрылась классика: как только бенч становится «главным», он тут же превращается в тренировочный датасет и цифры улетают в космос. у нас в команде после пары таких сюрпризов держим свой маленький eval на приватных багфиксах/PR — меньше красиво, но хоть понятно, что модель реально тянет. SWE-Bench Pro посмотрю, интересно насколько там жёстко отфильтровали утечки.

Join discussion on TelegramComments are synced from Telegram

Связанные темы

ai (23)технологии (19)бизнес (12)инвестиции (11)стартап (10)anthropic (4)искусственный (4)модель (4)

OpenAI рекомендует больше не оценивать модели своим бенчмарком SWE-bench Verified

💬Discussion (1)

Связанные темы

Читать далее

Anthropic удвоил лимиты, потому что взял в аренду дата-центр Маска

Впервые сократилось время, которое люди тратят на соцсети

Вакансия для Team Lead

Anthropic выпустил шаблоны агентов для финансовых услуг

Каковы были доходы инвесторов OpenAI по сравнению с другими компаниями?

Microsoft, Google и xAI дадут властям США ранний доступ к новым моделям