Новости IT, Tech-лайфхаки & Кодинг

Новую ИИ-модель DeepSeek R1 заподозрили в обучении на данных Google Gemini

Компания DeepSeek недавно выпустила обновлённую версию рассуждающей модели R1, которая показала хорошие результаты в решении математических задач и написании кода. Однако источник данных для её обучения остаётся неизвестным, что вызвало подозрения у ряда исследователей. По их мнению, часть информации могла быть взята из выводов Google Gemini.

Новую ИИ-модель DeepSeek R1 заподозрили в обучении на данных Google Gemini
Источник изображения: hdhai.com

По сообщению TechCrunch, Сэм Пэч (Sam Paech), австралийский разработчик, специализирующийся на тестировании «эмоционального» ИИ, опубликовал свои наблюдения, согласно которым модель R1-0528 использует слова и выражения, характерные для Google Gemini 2.5 Pro. По его словам, это может указывать на то, что DeepSeek обучалась именно на выходных данных Gemini. Хотя это не является прямым доказательством, другой разработчик, известный под псевдонимом SpeechMap и занимающийся оценкой свободы высказываний в моделях ИИ, также отметил, что внутренние «мыслительные процессы» R1 слишком похожи на процессы Gemini.

Это уже не первый случай, когда DeepSeek подозревают в использовании чужих моделей. В декабре прошлого года пользователи заметили, что их модель V3 иногда представляется как ChatGPT от OpenAI, что может говорить о возможном обучении на логах этого бота. Ранее в этом году издание Financial Times сообщило, что OpenAI обнаружила признаки так называемой «дистилляции» — метода, при котором данные берутся из более крупной модели для создания конкурентной. Одновременно Bloomberg добавил, что Microsoft, партнёр OpenAI, зафиксировала массовое извлечение данных через аккаунты, связанные с DeepSeek.

Хотя дистилляция является довольно распространённой практикой в мире ИИ, использование выводов моделей OpenAI для создания конкурирующих систем запрещено правилами использования API компании. При этом стоит учитывать, что многие модели независимо друг от друга начинают использовать одни и те же слова или структуры предложений просто потому, что современный интернет буквально переполнен текстами, созданными другими ИИ. Контент-фермы генерируют кликбейт, а боты засоряют Reddit и X — всё это затрудняет фильтрацию данных перед обучением.

Тем не менее, некоторые эксперты считают, что DeepSeek вполне могла воспользоваться выводами Gemini. Натан Ламберт (Nathan Lambert), исследователь из некоммерческого института AI2, написал в соцсети, что если бы он руководил DeepSeek, то обязательно бы генерировал большое количество синтетических данных, используя лучшие доступные модели. По его словам, у компании есть деньги, но не хватает вычислительных мощностей — а значит, такой способ позволяет эффективно компенсировать этот недостаток.

В ответ на эти тенденции крупные ИИ-компании усиливают меры безопасности. Например, OpenAI с апреля требует прохождения верификации с предоставлением государственного удостоверения личности для доступа к некоторым своим продвинутым моделям. Китай при этом в список поддерживаемых стран не входит. Google тоже не остаётся в стороне: недавно платформа AI Studio начала скрывать «следы» своих моделей, чтобы затруднить создание конкурирующих систем. Anthropic пошла по тому же пути, объяснив это защитой собственных коммерческих интересов.

Представители Google пока не прокомментировали ситуацию.

Добавьте Hdhai в избранное и вы будете чаще видеть наши последние новости на главной Дзена и в разделе «Новости партнёров» или читайте нас в Telegram в привычном для вас формате.