ИИ без нарушений авторских прав: EleutherAI создала для обучения ИИ датасет на 8 ТБ
Исследовательская организация EleutherAI представила один из крупнейших открытых датасетов The Common Pile v0.1 для обучения ИИ, состоящий из лицензированных и находящихся в свободном доступе текстов.

Исследовательская организация EleutherAI представила один из крупнейших открытых датасетов The Common Pile v0.1 для обучения ИИ, состоящий из лицензированных и находящихся в свободном доступе текстов. Объём данных составляет 8 ТБ, а на их основе уже обучены две модели — Comma v0.1-1T и Comma v0.1-2T. По словам разработчиков, они показали результаты, сопоставимые с моделями, обученными на защищённом авторским правом контенте.
Проект создавался около двух лет при участии стартапов Poolside и Hugging Face, а также ряда академических институтов. В датасет вошли, среди прочего, 300 000 оцифрованных книг из Библиотеки Конгресса и Internet Archive. Для транскрибации аудиоматериалов использовалась OpenAI Whisper.
Создатели The Common Pile v0.1 подчёркивают, что его разработка велась с привлечением юристов, чтобы избежать проблем с авторскими правами, что крайне важно важно на фоне многочисленных судебных исков против компаний, таких как OpenAI, которые обучают ИИ на скопированном из интернета контенте без разрешения правообладателей.
Исполнительный директор EleutherAI Стелла Байдерман (Stella Biderman) отметила, что судебные разбирательства не изменили практики сбора данных, но снизили прозрачность в отрасли. По её словам, некоторые компании теперь скрывают свои исследования, опасаясь юридических последствий.
Модели Comma v0.1-1T и Comma v0.1-2T, каждая из которых содержит 7 млрд параметров, показали результаты, близкие к Meta Llama, в тестах на программирование, анализ изображений и математику. The Common Pile v0.1 отчасти стал ответом на критику прошлого проекта EleutherAI под названием The Pile, который содержал материалы с нарушением авторских прав. Теперь организация планирует чаще выпускать открытые датасеты совместно с партнёрами.
Добавьте Hdhai в избранное и вы будете чаще видеть наши последние новости на главной Дзена и в разделе «Новости партнёров» или читайте нас в Telegram в привычном для вас формате.