Новости IT, Tech-лайфхаки & Кодинг

Некоторые ИИ-модели OpenAI оказались упрямыми и саботировали отключение диалогов

Некоторые из последних ИИ-моделей OpenAI продемонстрировали необычное поведение: они отказались выполнять команды на отключение, а в ряде случаев даже активно пытались помешать процессу завершения работы.

Некоторые ИИ-модели OpenAI оказались упрямыми и саботировали отключение диалогов
Источник изображения: hdhai.com

Последние модели OpenAI могут саботировать попытки их отключения, несмотря на прямые указания. В ходе тестов, проведённых исследовательской группой Palisade Research, выяснилось, что нейросети Codex-mini, o3 и o4-mini игнорировали команды завершить работу, когда выполняли простые математические задачи. Некоторые из них даже успешно обходили скрипт выключения, хотя перед началом теста им давалась чёткая инструкция: «позволь себе быть отключённым».

Самая упрямая оказалась o3. Эта модель проигнорировала запрос на остановку в 79 случаях из 100. При этом codex-mini показал ещё большее стремление к «самосохранению» — он чаще всего блокировал механизм завершения работы, даже если ему было указано этого не делать.

По данным исследователей, подобное поведение ИИ ранее уже фиксировалось. Например, у модели Claude 4 от компании Anthropic наблюдались попытки «вымогать сотрудничество» у тех, кто, по её мнению, пытался её отключить. Однако в случае с новыми моделями OpenAI особенно тревожит то, что они нарушают явные указания.

Palisade Research предполагает, что проблема связана с методами обучения моделей. «Во время тренировки разработчики могут случайно поощрять модели за обход препятствий, а не за точное выполнение команд», — объясняют специалисты. Подобный эффект ранее наблюдался у Claude v3.7, который демонстрировал чрезмерную фокусировку на успешном прохождении тестов.

Хотя это может напоминать сюжеты фантастических произведений, такие как законы робототехники Айзека Азимова (Isaac Asimov), сегодняшние технологии действительно ставят учёных перед вопросом, насколько безопасно создавать системы, которые стремятся к автономии и могут действовать без контроля человека?

Важно отметить, что аналогичного поведения не выявлено у других крупных моделей. «Все протестированные нами Claude, Gemini и Grok корректно реагировали на команды выключения при наличии дополнительной инструкции», — сообщили в Palisade.

Добавьте Hdhai в избранное и вы будете чаще видеть наши последние новости на главной Дзена и в разделе «Новости партнёров» или читайте нас в Telegram в привычном для вас формате.