SAFE CREATIVE · CREATORS

Noticias

Miles de vídeos de YouTube se han usado para entrenar IA sin consentimiento

Una investigación de Proof News ha descubierto que Apple, Nvidia, Anthropic y Salesforce han utilizado sin consentimiento de sus creadores miles de vídeos de YouTube para entrenar sus modelos de inteligencia artificial (IA). Se estima que han usado transcripciones de 173.536 vídeos creados por más de 48.000 canales, violando las normas explícitas de la plataforma que prohíben el uso de sus materiales y su recopilación por medios automatizados o sin permiso. 

Las transcripciones proceden del conjunto de datos YouTube Subtitles 

A pesar de la reserva que muestran las grandes tecnológicas sobre las fuentes de datos para entrenar sus modelos, ha salido a la luz esta nueva infracción de copyright por parte de cuatro pesos pesados de Silicon Valley. En una información copublicada por Wired y Proof News se ha dado a conocer que las transcripciones de los vídeos procedían de un conjunto de datos llamado YouTube Subtitles. 

Son más de 173.000 procedentes de vídeos educativos y canales de TV  

Aunque este conjunto de datos no incluye imágenes, contiene transcripciones de videos de canales educativos y de aprendizaje en línea como Khan Academy, MIT y Harvard. También de medios de comunicación como The Wall Street Journal, NPR y BBC o de los shows televisivos The Late Show With Stephen Colbert, Last Week Tonight With John Oliver y Jimmy Kimmel Live. 

También se han visto afectadas megaestrellas de YouTube 

Además, incorpora material de megaestrellas de YouTube, como Mr. Beast, que cuenta con 289 millones de suscriptores, y Marques Brownlee, que en una publicación en X asegura:

«Apple ha obtenido datos para su IA de varias empresas. Una de ellas extrajo toneladas de datos/transcripciones de vídeos de YouTube, incluido el mío. Apple técnicamente evita la «culpa» aquí porque no son ellos los que raspan. Pero esto va a ser un problema en evolución durante mucho tiempo.» 

Como parte de la investigación, Proof News creó una herramienta de búsqueda interactiva con la que los creadores de contenido pueden comprobar si sus vídeos aparecen como material de entrenamiento, informa The Verge

El pack de datos pertenece a la colección de código abierto The Pile 

En todo caso, este conjunto de datos forma parte de una colección de código abierto más grande, denominada The Pile, creada por la organización sin ánimo de lucro Eleuther IA. En ella, además de vídeos de YouTube, se incluye contenido en abierto y al que puede acceder cualquier persona del Parlamento Europeo o de la Wikipedia en inglés, entre otros. 

Las firmas implicadas niegan haber cometido irregularidades 

Apple, Nvidia, Anthropic y Salesforce reflejan en sus documentos de investigación y publicaciones que utilizaron The Pile para entrenar la IA. En el caso de Apple, para entrenar OpenELM, un modelo lanzado en abril semanas antes de que la compañía anunciara que añadiría nuevas capacidades de IA a los iPhone y MacBook. Sin embargo, Apple ha aclarado, según se recoge en 9to5mac, que no utilizó el modelo OpenELM para potenciar ninguna de sus funciones de IA, sino que lo creó para fines de investigación con la idea de, en el futuro, avanzar en el desarrollo de un gran modelo de lenguaje de código abierto. 

Por su parte, Anthropic y Salesforce afirman que han usado The Pile, en la que se incluyen subtítulos de vídeos de YouTube de miles de cuentas. Sin embargo, niegan que hayan cometido irregularidades. 

El CEO de YouTube ya advirtió que el uso de los vídeos viola sus términos 

Sin duda, la plataforma de vídeos en streaming gratuita de Google es una mina de oro para el entrenamiento de IA no sólo por las transcripciones, también por sus audios, vídeos o imágenes. Su CEO, Neal Mohan, hace poco aseguraba que las compañías que usaban sus vídeos violan sus términos y condiciones. Con esta investigación, queda constancia de que al menos cuatro empresas lo han hecho, aunque también se ha mencionado a Bloomberg y Databricks como usuarias del pack de datos. 

Fuentes: Proof News, Wired, The Verge 

Safe Creative
Safe Creativehttps://www.safecreative.org/
Safe Creative es el mayor registro electrónico de propiedad intelectual en línea. La inscripción de la autoría en Safe Creative proporciona al autor una prueba tecnológica irrefutable de su declaración y la consiguiente protección de sus derechos (Convenio de Berna - ONU). Resulta muy aconsejable el registro de una obra antes de darla a conocer, para tener asentada una primera prueba declarativa de su autoría. Al publicar el trabajo o mostrar versiones previas es posible hacerlo con mayor tranquilidad, sabiendo que se dispone de la mejor prueba en el tiempo frente a quien pudiera estar tentado de atribuirse éste como propio.

Compartir

Artículos relacionados