Claude обошёл ChatGPT и Gemini в прохождении Super Mario Bros

Опубликовано: 04.03.2025, 16:19 | Автор: hdhAI

Super Mario стал испытательным полем для искусственного интеллекта, требуя от моделей планирования сложных маневров и разработки стратегий. В ходе тестов обнаружено, что модели, использующие логическое мышление, справляются хуже из-за задержек в принятии решений.

Источник изображения: Nintendo

Если раньше казалось, что испытание Pokemon было сложным для ИИ, то приготовьтесь: исследователи утверждают, что Super Mario Bros — это ещё более суровый тест на интеллект. Лаборатория Hao AI Lab из Калифорнийского университета в Сан-Диего решила забросить новейшие ИИ-модели в мир грибов, труб и огнедышащих цветов, чтобы проверить их способности. Результаты оказались неожиданными. Лучше всех справился Claude 3.7 от Anthropic, за ним следовал Claude 3.5, а вот Google Gemini 1.5 Pro и OpenAI GPT-4o показали так себе результаты.

Понятное дело, что речь идёт не о том, что разработчики просто дали ИИ поиграть в классическую 8-битную игру 1985 года. Специальный эмулятор и платформа GamingAgent, разработанная в Hao AI Lab, позволили моделям управлять Марио. ИИ получал базовые инструкции вроде «если впереди препятствие, подпрыгни» и анализировал игровые скриншоты. После этого он генерировал команды в виде кода на языке программирования Python, чтобы направлять усатого водопроводчика к заветному флагу.

Интересно, что так называемые рассуждающие модели — те, которые логически разбирают проблему по шагам, — показали себя хуже, чем их «менее рассуждающие» коллеги. Это довольно парадоксально, ведь в большинстве тестов такие модели обычно лидируют. Однако в динамичной игре, где каждая секунда на счету, вдумчивость явно становится недостатком, чем преимуществом.

Исследователи предположили, что именно медлительность рассуждающих моделей сыграла с ними злую шутку. Пока они тщательно анализировали ситуацию, Марио уже падал в пропасть или сталкивался с врагами. А ведь в Super Mario Bros реакция должна быть мгновенной, иначе велкам в бездну.

Вообще, использование видеоигр для тестирования ИИ не то, чтобы большая новость. Однако некоторые эксперты сомневаются, насколько такие тесты действительно отражают прогресс технологий. В отличие от реального мира, игры — это упрощенные, предсказуемые системы с бесконечным количеством данных для тренировки. Так что вопрос умеет ли ИИ играть далеко не всегда равен вопросу умеет ли он думать.

Один из основателей OpenAI, Андрей Карпати (Andrej Karpathy), даже считает, что в индустрии сейчас царит кризис оценки ИИ. «Честно говоря, я не знаю, какие метрики сейчас действительно важны, — написал он в соцсети X. — Если коротко: я понятия не имею, насколько хороши современные модели». Тем не менее, по крайней мере, теперь мы можем наблюдать, как ИИ учится прыгать по грибам и лазить по трубам.

Источник: TechCrunch

Похожие статьи
Интересное





Warning: file_put_contents(/var/www/angella1/data/www/hdhai.com/counter/count.php): Failed to open stream: Permission denied in /var/www/angella1/data/www/hdhai.com/counter.php on line 89