El miércoles 26 de junio se anunció la creación de la Dataset Providers Alliance (DPA). Una alianza comercial de siete compañías que licencian contenido de música, imágenes, vídeos, voz y otros conjuntos de datos para entrenar los sistemas de inteligencia artificial (IA). Su objetivo es promover la «obtención ética de datos» a través del fomento de buenas prácticas y respetando los derechos de los creadores de contenidos, así como los derechos de las personas representadas en los conjuntos de datos. En este mes de julio, el grupo planea publicar un libro blanco que describa sus posiciones.
En un momento en que llueven las demandas a las empresas de IA por el uso de datos protegidos por propiedad intelectual para enseñar a sus robots, un grupo de siete empresas se ha unido con la intención de apoyar la adquisición ética de datos y proteger los derechos de propiedad intelectual de los titulares de contenidos.
Empresas de EE. UU., Japón y Alemania entre los miembros fundacionales
Los miembros fundadores de la DPA incluyen proveedores estadounidense de conjuntos de datos musicales como Rightsify y Global Copyright Exchange (GCX); el servicio de licencias de imágenes vAIsual; el catálogo de películas y televisión Calliope Netwoks; ado; el proveedor japonés de fotografías de archivo Pixta; y Datarade, un mercado de datos con sede en Alemania.
El objetivo es fomentar un entorno justo y equilibrado
Alex Bestall, director ejecutivo de Rightsify y GCX, que lideró la fundación de la alianza, ha manifestado que «el lanzamiento de la DPA marca un hito importante en el crecimiento y maduración del mercado de licencias de datos de IA. Dará una voz poderosa a los proveedores de conjuntos de datos, asegurando que los derechos de los creadores de contenido estén protegidos mientras que los desarrolladores de IA acceden a grandes cantidades de datos de alta calidad para entrenar a sus sistemas.»
Antecedentes que dan lugar a esta alianza
La irrupción de tecnologías de IA generativa que pueden imitar la creatividad humana en los últimos años ha provocado una protesta de los creadores de contenido y una serie de demandas por derechos de autor contra empresas tecnológicas como Google, Meta y el fabricante de ChatGPT, OpenAI, que cuenta con el respaldo de Microsoft.
Los desarrolladores han estado entrenando modelos alimentándoles con grandes cantidades de contenido, gran parte de él extraído de Internet de forma gratuita sin el consentimiento de quienes crearon las obras o poseen los derechos sobre ellas. Aunque afirman que este uso es legal, «están pagando silenciosamente por el acceso a colecciones privadas de contenido, tanto para satisfacer necesidades de tipos particulares de datos como para protegerse contra riesgos legales y regulatorios», recoge Reuters.
Surge una industria que empaqueta contenido para comercializarlo
La perspectiva de que la demanda de datos bajo licencia crezca si los propietarios de derechos de autor prevalecen en sus luchas legales ha impulsado el surgimiento de una industria incipiente formada por empresas que empaquetan contenido y lo venden para su uso por sistemas de IA. Como resultado, se han formado grupos para establecer estándares éticos para este comercio, como Fairly Trained. Se trata de una organización sin ánimo de lucro, fundada este año, que certifica modelos que no han utilizado materiales protegidos por derechos de autor sin una licencia.
Apoyar las buenas prácticas con legislación específica sobre transparencia
La DPA se centra en el contenido de esas transacciones y exige, por ejemplo, que sus miembros se comprometan a no vender datos de texto obtenidos al rastrear la web o audio que incluya voces de personas sin su consentimiento explícito. Bestall, ha señalado la conocida como Ley NO FAKES, un proyecto de ley estadounidense presentado el año pasado para crear sanciones por generar réplicas digitales no autorizadas de voces o imágenes de personas, como el tipo de legislación que hay que impulsar.
«La promoción será una parte importante, porque todos han tomado sus posiciones sobre la IA y los derechos de autor, pero muchas de estas batallas aún no se han resuelto y llevará un tiempo lograrlo», ha asegurado Bestall. La DPA también presionará para que se establezcan más requisitos de transparencia de los datos de capacitación, como los de la Ley de IA de la Unión Europea y un proyecto de ley similar de Estados Unidos presentado en abril, la Ley de Divulgación de Derechos de Autor de la IA Generativa, añadió.
Relacionado: Proyecto de ley en EE UU pide transparencia en las fuentes de datos de la IA
Fuente: Reuters, Comunicado DPA