SAFE CREATIVE · CREATORS

Noticias

¿Los datos sintéticos reducirán las infracciones de copyright?  

De un tiempo a esta parte, los datos sintéticos se cuelan en cualquier conversación en torno a la inteligencia artificial (IA). Las empresas desarrolladoras de modelos necesitan este tipo de datos para entrenar sus sistemas debido a que se están agotando las posibilidades de extracción de información que les brinda la red. Estas compañías creen que los datos sintéticos contribuirán a reducir las infracciones por derechos de autor. Sin embargo, los datos generados de forma artificial no están libres de contener datos protegidos, puesto que se crean a partir de fuentes del mundo real. 

Hace cuatro años, la consultora Gartner adelantó que el 60% de los datos que se utilizarían en IA y en analítica se producirían de forma artificial en 2024. No obstante, la falta de transparencia de la que hacen gala las tecnológicas sobre la información que utilizan para entrenar sus modelos no facilita el conocimiento real de esta cifra. Todo indica que están experimentando con este tipo de datos, pero puede que aún no se hayan lanzado a su uso masivo. Al tratarse de datos generados por la propia IA a la que van a alimentar, podrían incorporar los defectos que se siguen detectando en los sistemas, como las alucinaciones o los sesgos, justo lo que se pretende combatir. 

Las tecnológicas siguen perfeccionando la creación de datos sintéticos 

De hecho, The New York Times, el pasado abril, informaba de que las empresas siguen trabajando en perfeccionar la forma de crear datos sintéticos. Según el diario estadounidense, han explorado, entre otras, una técnica en la que dos modelos de IA diferentes trabajan juntos para generar datos sintéticos más útiles y fiables. Uno, genera los datos; el otro, los evalúa y decide si son buenos o malos, precisos o no. De esta forma, se supone que obtienen datos de alta calidad para el entrenamiento. 

«Antropic es la que más ha profundizado en esta técnica utilizando una ‘constitución’ elaborada por los investigadores de la empresa para afinar las decisiones del segundo modelo. Le enseñan a elegir textos que apoyen principios como la libertad, la igualdad, el sentido de la vida y la seguridad personal. De aquí que se conozca este método como IA constitucional. Los datos sintéticos que genera precisan de la intervención humana para asegurarse de que cumplen los preceptos marcados, lo que supone limitar la cantidad de datos que genera el proceso.» 

(The New York Times)

Sin embargo, no existe unanimidad entre los investigadores respecto a las mejoras que puede aportar este método a los sistemas de IA. Tampoco está claro si este sistema ayuda a eludir las infracciones por copyright. «Si los modelos de IA que generan datos sintéticos se han entrenado con datos creados por humanos, en muchos casos protegidos por derechos de autor, los titulares pueden seguir argumentando que se han utilizado textos, imágenes y videos sin autorización», advierte el diario. 

Partir de cero o combinar datos reales con aportaciones propias 

David Bollero, periodista especializado en tecnología, ahonda en esta misma línea. «La clave está en cómo se han generado esos datos sintéticos, si se han desarrollado partiendo de cero –algo inusual en el caso de obras artísticas– o si, por el contrario, se incorporan datos reales que se combinan con aportaciones de cosecha propia». 

Para la creación de esos datos sintéticos casi siempre se precisa un entrenamiento con fuentes del mundo real. En ocasiones, sin solicitar permiso a su autor o tenedor de los derechos. Supuestamente, es lo que ha hecho Stability AI con el banco de imágenes de Getty Images para crear Stable Diffusion y DreamStudio, lo que le ha valido una demanda que, a finales del año pasado, fue aceptada a trámite en Reino Unido. Es un ejemplo en el que «se produciría una infracción de la propiedad intelectual», afirma Bollero. 

En los datos sintéticos pueden permanecer «residuos» de las obras originales 

Igual que existe un riesgo de reidentificación de datos personales cuando se utilizan para crear datos sintéticos destinados a realizar estudios médicos, en el caso de la propiedad intelectual «pueden permanecer residuos de la obra original, de modo que la obra producida por IA vaya mucho más allá de estar inspirada en el original». De hecho, «los sistemas de IA multiplican esta posibilidad de forma exponencial, pues son capaces de mezclar a modo de collage infinidad de fuentes originales», indica. 

Para el experto en tecnología, si se continúan utilizando los datos sintéticos en el ámbito artístico y se reducen las infracciones de propiedad intelectual, «no será tanto por un buen uso, como porque se enseñe a los sistemas de IA a introducir las modificaciones precisas para eludir la acción de la justicia. Pero el perjuicio a los autores y autoras permanecerá».  

De momento, existen algunas herramientas en el mercado que intentan mitigar estos riesgos de manera preventiva. Glaze, desarrollada por el SAND Lab de la Universidad de Chicago en colaboración con diversos artistas, permite barnizar cualquier obra pictórica de manera imperceptible para el ojo humano e impide a los modelos de IA copiar su estilo. Esta misma universidad también ha puesto a disposición de los creadores Nightshade, una herramienta más agresiva que introduce alteraciones que corrompen la obra, de forma que el sistema de IA que entrene con ella genere resultados inservibles. 

Otro ejemplo preventivo con imágenes es PhotoGuard, desarrollado por el Computer Science and Artificial Intelligence Laboratory (CSAIL) del MIT. Introduce alteraciones minúsculas en los valores de los píxeles, invisibles al ojo humano, pero detectables por modelos de computadora, lo que reduce la capacidad del modelo de IA para manipular la imagen. 

Por otro lado, existen soluciones capaces de detectar si una obra ha sido producida con IA: Sapling, GPTZero, Content at Scale, Copyleaks, Originality.ai, Undetectable AI…  aunque no son fiables al cien por cien. Y, como era de esperar, también se han desarrollado herramientas como StealthGPT que aseguran ser capaces de generar contenido IA indetectable. 

Evolucionar las políticas y leyes para abordar los nuevos desafíos 

No hay duda, por tanto, de que el uso de datos sintéticos en la IA plantea un nuevo desafío en cuanto a la infracción de la propiedad intelectual de creadores y artistas. Ana Fernández Bosch, directora de Operaciones de Pangeanic, empresa especializada en la creación de datos para proyectos de IA y aprendizaje automático, coincide en que los datos sintéticos pueden incorporar elementos de obras protegidas por derechos de autor. 

En su opinión, «es crucial que las políticas y leyes de propiedad intelectual evolucionen para abordar estos nuevos desafíos, asegurando que los derechos de los creadores humanos sean respetados y protegidos, incluso en un entorno dominado por la IA y los datos sintéticos». 

En este sentido, en el mercado europeo, la Ley de IA ha supuesto un avance al exigir la divulgación de materiales protegidos por derechos de autor utilizados en el entrenamiento de la IA. Si bien, puede chocar con algunas exenciones recogidas en la Directiva sobre derechos de autor y derechos afines en el mercado único digital. En Estados Unidos, también se están produciendo movimientos. A primeros de abril se presentó un proyecto de ley en la Cámara de Representantes que abre la posibilidad de conocer los datos con los que las tecnológicas entrenan sus IA generativas. 

Relacionado: Proyecto de ley en EEUU pide transparencia en las fuentes de datos de la IA 

Los datos sintéticos como factor de equilibrio 

Para Fernández Bosch, «el uso de datos sintéticos tiene el potencial de proteger la propiedad intelectual y minimizar las infracciones» al permitir la creación de obras y la formación de modelos de IA sin depender de datos protegidos por derechos de autor». Sin embargo, su implementación efectiva «requiere atención a la calidad de los datos generados y a los posibles desafíos éticos y legales asociados con su uso. Si se gestionan adecuadamente, los datos sintéticos pueden ser una herramienta poderosa para equilibrar la innovación tecnológica con la protección de los derechos de los creadores», asegura. 

Habrá que estar atentos para ver cómo se concreta la potencial protección de los derechos de autor que se supone a los datos sintéticos. 

Araceli Hernández
Araceli Hernández
Ha colaborado en infinidad de medios económicos, dirigiendo una publicación mensual. La curiosidad le metió de lleno en las posibilidades que ofrece la era digital al periodismo. Ahora, sigue observando la realidad con la mirada crítica de siempre.

Compartir

Artículos relacionados