OpenAI выпустила модель o3 с улучшенными возможностями рассуждения

Опубликовано: 22.12.2024, 12:26 | Автор: hdhAI
Источник изображения: OpenAI

Компания OpenAI завершила свой 12-дневный «Shipmas» (праздничную серию анонсов) громким заявлением о выпуске продвинутой серии моделей o3, являющихся преемником модели o1 «Reasoning», выпущенной ранее в этом году. Семейство o3 включает в себя две модели: o3 и o3-mini, более компактную и оптимизированную версию.

OpenAI заявила, что o3, при определенных условиях, приближается к искусственному общему интеллекту (AGI), хотя и с существенными оговорками. По словам представителей компании, модель способна эффективно «рассуждать», что делает её более надежной в таких областях, как физика, наука и математика. При этом интересно, что новая модель названа o3, а не o2. Как сообщает издание TechCrunch, OpenAI пропустила o2, чтобы избежать потенциального конфликта с британским телекоммуникационным провайдером O2.

Пока ни o3, ни o3-mini не доступны широкой публике. Однако специалисты в области безопасности могут подать заявку на предварительный просмотр o3-mini уже сегодня. Предварительный доступ к o3 появится позднее, хотя сроки не уточняются. Генеральный директор OpenAI Сэм Альтман (Sam Altman) заявил, что запуск o3-mini запланирован на конец января, а затем будет выпущена и версия o3.

В отличие от большинства ИИ, модели рассуждения, такие как o3, эффективно проверяют факты, что помогает им избегать ошибок. Однако этот процесс занимает некоторое время и O3, как и o1, требуется больше времени для нахождения решений, чем обычным моделям. Тем не менее, модель более надёжна в таких областях, как физика, наука и математика.

Отмечается, что O3 была обучена с помощью обучения с подкреплением, что позволяет ей «думать» перед ответом. Модель способна рассуждать и планировать, выполняя серию действий, которые помогают ей найти решение. Модель o3 получила также возможность устанавливать время рассуждения — можно настроить на низкий, средний или высокий уровень вычислений (время размышления). При этом, чем выше вычислительная мощность, тем лучше o3 справляется с задачей. Несмотря на все преимущества, o3 не является безупречной. Хотя её способность к рассуждению снижает число ошибок, они не устраняются полностью.

Одним из главных вопросов был вопрос о том, заявит ли OpenAI, что их новые модели приближаются к AGI. AGI, или искусственный общий интеллект, — это ИИ, способный выполнять любую задачу, которую может выполнить человек. OpenAI определяет AGI как «высокоавтономные системы, которые превосходят людей в большинстве экономически ценных работ».

По одному из тестов, OpenAI медленно приближается таки к AGI. В тесте ARC-AGI, оценивающем способность ИИ приобретать новые навыки, o3 набрала 87,5% при высоком уровне вычислений. Даже при низком уровне вычислений модель утроила производительность предшественника o1. При этом, по словам соавтора ARC-AGI Франсуа Шолле (François Chollet), высокая вычислительная мощность была чрезвычайно дорогой — порядка нескольких тысяч долларов за одно тестирование.

Шолле также отметил, что o3 не справляется с «очень простыми задачами» в ARC-AGI, что, по его мнению, указывает на «фундаментальные различия» между моделью и человеческим интеллектом. В других тестах o3 демонстрирует впечатляющие результаты. Модель превосходит o1 на 22,8 процентных пункта в SWE-Bench Verified (тест на программирование). O3 также набрала 96,7% на Американском математическом экзамене, пропустив всего один вопрос, и достигла 87,7% на GPQA Diamond (тест на биологию, физику и химию).

Отметим, что вслед за выпуском первых моделей рассуждения от OpenAI, многие компании начали создавать свои модели. В начале ноября DeepSeek, исследовательская компания, выпустила предварительную версию своей первой модели рассуждения DeepSeek-R1. В том же месяце команда Alibaba Qwen представила первую «открытую» альтернативу o1. Несмотря на это, не все убеждены, что модели рассуждения являются наилучшим вариантом. Они дороги и требуют больших вычислительных мощностей. Кроме того, пока неясно, смогут ли они поддерживать текущий темп прогресса.

Источник: TechCrunch

Теги: AIChatGPTOpenAI
Похожие статьи
Интересное





Warning: file_put_contents(/var/www/angella1/data/www/hdhai.com/counter/count.php): Failed to open stream: Permission denied in /var/www/angella1/data/www/hdhai.com/counter.php on line 89