Bitget App
Торгуйте разумнее
Купить криптоРынкиТорговляФьючерсыКопитрейдингBotsEarn
СМИ: Apple и Nvidia использовали YouTube для обучения ИИ без согласия авторов

СМИ: Apple и Nvidia использовали YouTube для обучения ИИ без согласия авторов

Incrypted2024/07/19 12:36
Автор:Serhii Pantyukh
  • СМИ узнали о копировании материалов YouTube для обучения ИИ-моделей.
  • Такие компании, как Apple, Nvidia, Anthropic и Salesforce, использовали данные видеороликов без согласия авторов.
  • Набор данных, преимущественно состоящий из субтитров к видео, является частью глобального сборника информации Pile.

Крупные технологические компании, среди которых Apple, Nvidia, Anthropic и Salesforce, использовали «десятки тысяч видеороликов» с YouTube для обучения ИИ-моделей. Эти действия совершались без согласия авторов видео, говорится в отчете, опубликованном Proof News .

По утверждению СМИ, некоторые компании могли нарушить правила YouTube, запрещающие сбор и копирование материалов платформы без разрешения авторов.  Журналистское исследование показало, что фирмы использовали субтитры в 173 536 видеороликах, взятые с более чем 48 000 YouTube-каналов.

Набор данных под названием YouTube Subtitles включал в себя трансляции и записи с образовательных каналов, в том числе Khan Academy, MIT и Harvard. Кроме того, для обучения ИИ-моделей использовались видеоролики популярных блогеров: MrBeast (289 млн подписчиков), Jacksepticeye (почти 31 млн подписчиков), Marques Brownlee (19 млн подписчиков) и некоторых других.

«Никто не приходил ко мне и не просил разрешения на копирование информации. Это мой заработок, и я вкладываю время, ресурсы и деньги в создание контента», — заявил ведущий The David Pakman Show Дэвид Пакман.

Аудитория Пакмана превышает 2 млн человек, а его ролики набирают сотни тысяч просмотров. Между тем, почти 160 авторских записей Пакмана включили в обучающий набор данных для ИИ, утверждает источник.

Генеральный директор потокового сервиса Nebula Дэйв Вискус назвал действия Apple и других компаний воровством. По его словам, использование сторонних материалов без согласия авторов демонстрирует неуважение к их творчеству. 

«Мы разочарованы тем, что наш тщательно подготовленный образовательный контент был использован без нашего согласия», — заявила генеральный директор компании Complexly Джули Уолш Смит.

Представители EleutherAI — разработчика наборов данных для ИИ — не ответили на просьбу журналистов Proof News прокомментировать результаты отчета. Согласно исследованию , опубликованному командой EleutherAI, набор данных является частью сборника, выпущенного некоммерческой организацией Pile. 

Помимо материалов с YouTube, он включает в себя данные Европейского парламента, англоязычной версии Wikipedia и электронные письма сотрудников Enron, опубликованные в рамках федерального расследования в отношении фирмы.

Почти все компании подтвердили использование набора данных Pile в своей работе. В частности, Apple применяла полученную информацию для обучения ИИ и модели OpenELM.

«Правила YouTube распространяются на прямое использование материалов платформы, а не на набор данных The Pile. Что касается возможных нарушений условий обслуживания, рекомендуем обратиться к авторам The Pile», — говорится в заявлении Anthropic.

Ранее мы сообщали, что Anthropic профинансирует создание нового бенчмарка для оценки ИИ. Кроме того, компания представила новую версию чат-бота под названием Claude и заявила о намерении привлечь $750 млн инвестиций.

Еще одна организация Salesforce также подтвердила использование материалов Pile в «академических и исследовательских целях». Представители фирмы подчеркнули, что набор данных Pile является общедоступным.

Компании, которые занимаются вопросами изучения ИИ, конкурируют друг с другом. Они ведут борьбу за получение более качественных данных, считает научный сотрудник CyberBRICS Джай Випра. Это объясняет, почему фирмы стараются держать свои источники информации в тайне, добавил он.

Напомним, в июне 2024 года ИИ-стартап OpenAI и журнал TIME заключили соглашение о сотрудничестве. В рамках совместной работы компания получит доступ к материалам издания за более чем 100 лет.

0

Дисклеймер: содержание этой статьи отражает исключительно мнение автора и не представляет платформу в каком-либо качестве. Данная статья не должна являться ориентиром при принятии инвестиционных решений.

PoolX: вносите активы и получайте новые токены.
APR до 12%. Аирдропы новых токенов.
Внести!