The New York Times desvela la desesperación de las grandes tecnológicas por encontrar datos para alimentar sus modelos de inteligencia artificial (IA). OpenAI, Google y Meta, en su carrera por encontrar nuevas fuentes de datos para hacer avanzar esta tecnología, han obviado la protección legal de la autoría de los contenidos e, incluso, han pasado por encima de políticas corporativas de los servicios digitales que prohíben esta práctica. Se avecina una nueva polémica con resultados impredecibles.
Relacionado: El New York Times demanda a Microsoft y OpenAI
OpenAI transcribió un millón de horas de vídeos de YouTube
Una investigación del New York Times remueve los cimientos sobre los que se asienta la IA generativa. Según el diario, a finales de 2021, OpenAI creó una herramienta, que bautizó como Whisper, para transcribir un millón de horas de audio procedentes de vídeos de YouTube para alimentar de contenido a ChatGPT. Y lo hicieron a sabiendas de que ese contenido pertenece a los creadores y youtubers. Según las fuentes consultadas por NYT, el presidente de OpenAI, Greg Brockman, participó en la selección de estos vídeos.
Sora también pudo entrenarse con el mismo material
Como recoge Europa Press, el propio director ejecutivo de la plataforma audiovisual, Neal Mohan, ya había advertido que este hecho va contra las políticas de YouTube, si bien hacia referencia a un supuesto entrenamiento de Sora. Se especula que esta otra herramienta de OpenAI, que permite generar vídeos realistas a partir de una descripción de texto, también se ha podido entrenar con vídeos de YouTube.
Google cambió los términos del servicio para evitar responsabilidad legal
Por otro lado, la investigación también pone de relieve que Google, empresa propietaria de YouTube, ha hecho algo similar. Ha utilizado la transcripción de vídeos de su plataforma para entrenar a su modelo de IA Bard (ahora, Gemini). Al estar este contenido protegido por las propias políticas de la firma de Mountain View, cambiaron los términos de servicio para escapar de posibles responsabilidades legales por violación de los derechos de autor de los creadores de su aplicación.
La política de privacidad de Google hasta ese momento reflejaba que la compañía podía utilizar información pública disponible para «ayudar a entrenar los modelos lingüísticos de Google y crear funciones como Google Translate». La nueva redacción de los términos se concibió para que Google pudiera aprovechar los datos para sus «modelos de IA y crear productos y funciones como Google Translate, Bard y las capacidades de IA en la nube», lo que representaba una colección más amplia de tecnologías de IA.
«Si Google hiciera un escándalo por OpenAI, podría desatar un efecto búmeran contra sus propios métodos», se asegura en el reportaje del diario norteamericano.
Meta recopiló contenidos protegidos a sabiendas
En el caso de Meta, Mark Zuckerberg también se quedó sin datos de calidad para seguir alimentando su IA el año pasado. Según recoge NYT, la empresa propietaria de Facebook, Instagram y WhatsApp habría recurrido a Internet para recopilar gran cantidad de datos sin respetar si se trataba de contenidos protegidos. El propio Zuckerberg habría presionado a su equipo para optar por este método, aunque hubiera que asumir los costes de acciones judiciales en su contra.
También, la antigua Facebook se habría planteado la posibilidad de adquirir una editorial para tener acceso a obras protegidas por derechos de autor, al tiempo que explora estrategias para utilizar la información pública disponible en línea sin infringir los derechos de sus propios usuarios.
Sin duda, si se mantiene este modo de operar las demandas irán creciendo. Es evidente que se impone encontrar un equilibrio entre el avance constante de la IA generativa y el respeto por la propiedad intelectual.
Fuente: The New York Times, Europa Press