СМИ: Apple и Nvidia использовали YouTube для обучения ИИ без согласия авторов
- СМИ узнали о копировании материалов YouTube для обучения ИИ-моделей.
- Такие компании, как Apple, Nvidia, Anthropic и Salesforce, использовали данные видеороликов без согласия авторов.
- Набор данных, преимущественно состоящий из субтитров к видео, является частью глобального сборника информации Pile.
Крупные технологические компании, среди которых Apple, Nvidia, Anthropic и Salesforce, использовали «десятки тысяч видеороликов» с YouTube для обучения ИИ-моделей. Эти действия совершались без согласия авторов видео, говорится в отчете, опубликованном Proof News .
По утверждению СМИ, некоторые компании могли нарушить правила YouTube, запрещающие сбор и копирование материалов платформы без разрешения авторов. Журналистское исследование показало, что фирмы использовали субтитры в 173 536 видеороликах, взятые с более чем 48 000 YouTube-каналов.
Набор данных под названием YouTube Subtitles включал в себя трансляции и записи с образовательных каналов, в том числе Khan Academy, MIT и Harvard. Кроме того, для обучения ИИ-моделей использовались видеоролики популярных блогеров: MrBeast (289 млн подписчиков), Jacksepticeye (почти 31 млн подписчиков), Marques Brownlee (19 млн подписчиков) и некоторых других.
«Никто не приходил ко мне и не просил разрешения на копирование информации. Это мой заработок, и я вкладываю время, ресурсы и деньги в создание контента», — заявил ведущий The David Pakman Show Дэвид Пакман.
Аудитория Пакмана превышает 2 млн человек, а его ролики набирают сотни тысяч просмотров. Между тем, почти 160 авторских записей Пакмана включили в обучающий набор данных для ИИ, утверждает источник.
Генеральный директор потокового сервиса Nebula Дэйв Вискус назвал действия Apple и других компаний воровством. По его словам, использование сторонних материалов без согласия авторов демонстрирует неуважение к их творчеству.
«Мы разочарованы тем, что наш тщательно подготовленный образовательный контент был использован без нашего согласия», — заявила генеральный директор компании Complexly Джули Уолш Смит.
Представители EleutherAI — разработчика наборов данных для ИИ — не ответили на просьбу журналистов Proof News прокомментировать результаты отчета. Согласно исследованию , опубликованному командой EleutherAI, набор данных является частью сборника, выпущенного некоммерческой организацией Pile.
Помимо материалов с YouTube, он включает в себя данные Европейского парламента, англоязычной версии Wikipedia и электронные письма сотрудников Enron, опубликованные в рамках федерального расследования в отношении фирмы.
Почти все компании подтвердили использование набора данных Pile в своей работе. В частности, Apple применяла полученную информацию для обучения ИИ и модели OpenELM.
«Правила YouTube распространяются на прямое использование материалов платформы, а не на набор данных The Pile. Что касается возможных нарушений условий обслуживания, рекомендуем обратиться к авторам The Pile», — говорится в заявлении Anthropic.
Ранее мы сообщали, что Anthropic профинансирует создание нового бенчмарка для оценки ИИ. Кроме того, компания представила новую версию чат-бота под названием Claude и заявила о намерении привлечь $750 млн инвестиций.
Еще одна организация Salesforce также подтвердила использование материалов Pile в «академических и исследовательских целях». Представители фирмы подчеркнули, что набор данных Pile является общедоступным.
Компании, которые занимаются вопросами изучения ИИ, конкурируют друг с другом. Они ведут борьбу за получение более качественных данных, считает научный сотрудник CyberBRICS Джай Випра. Это объясняет, почему фирмы стараются держать свои источники информации в тайне, добавил он.
Напомним, в июне 2024 года ИИ-стартап OpenAI и журнал TIME заключили соглашение о сотрудничестве. В рамках совместной работы компания получит доступ к материалам издания за более чем 100 лет.
Дисклеймер: содержание этой статьи отражает исключительно мнение автора и не представляет платформу в каком-либо качестве. Данная статья не должна являться ориентиром при принятии инвестиционных решений.
Вам также может понравиться
В отчете ЕС признается потенциал несанкционированного блокчейна в традиционных финансах