Новости IT, Tech-лайфхаки & Кодинг

ИИ-модель o3 от OpenAI набрала в сравнительных тестах лишь 10% вместо ожидаемых 25%

Новая ИИ-модель o3 от OpenAI показала в независимых тестах результаты значительно ниже тех, что компания анонсировала ранее. Ранее OpenAI заявляла, что модель решает более 25% задач из сложного математического набора FrontierMath, оставляя конкурентов далеко позади — их ИИ справлялись лишь с 2-%. Однако свежие данные от исследовательского института Epoch AI говорят о другом: публичная версия o3 набрала всего около 10%.

ИИ-модель o3 от OpenAI набрала в сравнительных тестах лишь 10% вместо ожидаемых 25%
Источник изображения: OpenAI

Разницу в результатах компания объясняет разными условиями тестирования. В декабре компания использовала более мощную внутреннюю версию модели с увеличенными вычислительными ресурсами. Однако выпущенная версия o3 оказалась слабее.

Epoch AI предполагает, что расхождения могли возникнуть из-за разных версий теста или настроек вычислений. «OpenAI, возможно, использовала более мощную инфраструктуру или другую подборку задач», — отметили в институте. При этом Фонд ARC Prize, тестировавший раннюю версию o3, подтвердил, что публичная модель «настроена для чатов и продуктового использования», а не для максимальной производительности в бенчмарках.

Представитель OpenAI Вэньда Чжоу (Wenda Zhou) пояснил, что финальная версия o3 оптимизирована под реальные задачи и скорость работы, а не под тестовые показатели. «Мы сделали модель экономичнее и удобнее, но она остается очень сильной», — сказал он. Компания также анонсировала скорый выход более мощной версии o3-pro.

Отметим, что это не первый случай, когда ИИ-компании сталкиваются с вопросами достоверности бенчмарков. Например, недавно xAI Илона Маска обвиняли в манипуляции тестами для модели Grok 3. Meta также признавала, что рекламировала результаты не той версии модели, которую выложила для разработчиков.

Добавьте Hdhai в избранное и вы будете чаще видеть наши материалы на главной Дзена и в разделе «Новости партнёров» или читайте нас в Telegram в привычном для вас формате.