Разработчики регулярно называют свои новые ИИ-модели «самыми умными» — и приводят доказательства. Но как действительно понять, кто лучше? В этом помогают специальные тесты, хотя и они не идеальны
Выход каждой новой модели искусственного интеллекта, как правило, сопровождается уверениями разработчиков, что это самая умная, быстрая, и полезная система, которую они когда-либо создавали. Конечно, некоторые показатели качества действительно можно изучить — например, количество галлюцинаций. И тем не менее, многие утверждения со стороны кажутся простым хвастовством. Как определить, что модель лучше структурирует ответы, чем ее предшественницы и конкуренты? Как сравнить эффективность в той или иной области применения? Как понять, что система стала лучше понимать инструкции? Ответы на эти вопросы позволяют найти бенчмарки. «Медуза» рассказывает, как они устроены и почему их выводам не всегда стоит верить.
В течение недели с момента релиза новой ИИ-модели соцсети заполняются сотнями однотипных постов или даже целых тредов, общий смысл которых сводится к тому, что эта система «невероятна». Одни делятся своими промптами и результатами, другие выкладывают скриншоты переписки с нейросетью и изображения, получившиеся в результате генерации. Некоторые придумывают собственные задачи для оценки возможностей модели. Как, например, британский программист Саймон Уиллисон, который просит ИИ-системы рисовать картинки пеликана на велосипеде и потом сравнивает результат.
Некоторые из таких постов созданы исключительно для привлечения внимания и вовлечения аудитории. Другие, несмотря на изобретательность задач, все равно не позволяют получить объективную оценку возможностей нового ИИ. В конце концов, какая разница, насколько реалистичным получился пеликан, если модель, как и ее предшественницы, по-прежнему галлюцинирует при выполнении других запросов или не способна без ошибок выполнить простые арифметические действия.
Понять реальные возможности искусственного интеллекта и относительно объективно сравнить возможности разных систем позволяют бенчмарки. Это специальные тесты, с помощью которых можно проверить модель по единым критериям. Например, определить (и получить оценку в числовом выражении), насколько хорошо ИИ справляется с пониманием запросов, генерацией правильных ответов, написанием кода, генерацией изображений или видео.
Бенчмарки не обязательно связаны с нейросетями. Например, геймерам это слово тоже знакомо — с помощью таких тестов проверяют производительность компьютеров под высокой нагрузкой. Это позволяет понять, справится ли система с очередной требовательной к ресурсам игрой. В том или ином виде бенчмарки используют и в других областях: науке, технологической сфере, бизнесе.
В настоящее время существуют десятки, если не сотни бенчмарков для ИИ. Есть специализированные тесты, с помощью которых можно определить уровень «понимания» модели, ее познания в точных науках или в программировании. Существует даже специальный бенчмарк Vending-Bench 2, которые оценивает умение искусственного интеллекта управлять виртуальным вендинговыми автоматами — таким образом оценивают его способности управлять бизнесом.
Некоторые тесты, напротив, созданы для того, чтобы оценить познания языковых моделей в самых разных областях. К таким относится «Последний экзамен человечества» — бенчмарк, в котором нейросеть должна ответить на 2500 вопросов. В список тем входят математика, физика, биология, химия, гуманитарные науки и даже сам искусственный интеллект.
Лидерство в бенчмарках не гарантирует реальное превосходство ИИ. Нейросети учатся решать стандартные задачи, но от этого не становятся «умнее»
В недавнем анонсе модели Gemini 3 разработчики приводят сравнительную таблицу, которая наглядно демонстрирует превосходство новой системы как над Gemini 2.5, так и над конкурентами — Claude Sonnet 4.5 от Anthropic и GPT-5.1 от OpenAI. Согласно этим данным, искусственный интеллект Google лидирует в 19 из 20 бенчмарков. Он уступает лишь в тесте SWE-Bench Verified, созданном для оценки возможностей модели в программировании, — лидером стал Claude Sonnet.
Этим данным можно доверять, но с двумя важными оговорками. В некоторых тестах (например, Video-MMMU для оценки усвоения знаний из видеороликов) разница не столь значительна, чтобы ее могли заметить обычные пользователи. Но главное — лидерство в бенчмарках не гарантирует превосходства Gemini 3 в решении реальных повседневных задач.
Это происходит по многим причинам, ключевая из которых — стремительное развитие отрасли. Новые ИИ-модели могут выходить гораздо чаще, чем обновляются бенчмарки и их датасеты. С какой-то частью информации (вопросы, задачи и, соответственно, правильные ответы) обновленная нейросеть уже будет знакома заранее. Другую может «подсмотреть» в утечках, время от времени попадающих в сеть. Все это влияет на то, как модель выполняет тесты и общую корректность оценки.
На сравнение моделей при помощи бенчмарков также влияют условия тестирования и последующие корректировки. Модели, которые тестировали на запуске, могут несколько отличаться от тех же моделей месяц или два спустя. В первую очередь за счет дообучения, обновления параметров, точечной донастройки и добавления дополнительных фильтров (например, в целях безопасности).
Такое вмешательство неизбежно, ведь нейросети используют огромное количество людей, и в процессе всплывают недоработки, которые сложно было выявить до релиза. Яркие примеры — ИИ-поисковик все той же Google, который не отличал реальность от шуток, или чат-бот Илона Маска Grok, которого пользователи смогли сделать антисемитом. В обоих случаях разработчики вносили ручные корректировки в работу моделей, а это, в свою очередь, могло повлиять на то, как они справляются с некоторыми задачами.
Также важно учитывать, что бенчмарки представляют собой лишь фиксированный набор заданий. Они не предусматривают всех возможных сценариев использования ИИ-модели. А это значит, что высокая оценка за выполнение некоторых задач — особенно творческих — не гарантирует реального превосходства.
Наконец, стоит учитывать и человеческий фактор. Бум искусственного интеллекта привел к тому, что сейчас все разработчики хотят привлечь как можно больше денег в свои проекты. Для этого они могут целенаправленно обучать модели на прохождение популярных тестов, чтобы впечатлить потенциальных инвесторов высокими показателями бенчмарков. Но очевидно, что умение решать хорошо заученные задачи не имеет никакого отношения к реальному уровню «знаний».
В каком-то смысле нацеленность на высокие оценки в бенчмарках может даже тормозить дальнейшее развитие генеративного искусственного интеллекта. Ведь велик соблазн отказаться от какой-то новой идеи, полученной в результате научного исследования, или не торопиться с внедрением новых возможностей, если эффект от их использования пока невозможно выразить в цифрах.
«Медуза»