Los datos son esenciales para entrenar los modelos de inteligencia artificial e internet se está quedando pequeño para abastecer está demanda. La alternativa que barajan los gigantes tecnológicos es utilizar datos sintéticos que se crean de forma artificial para que sus robots sigan aprendiendo. Pero, ¿cómo afectará esta decisión a la propiedad intelectual? ¿el uso de datos sintéticos reducirá las infracciones por copyright? No hay una respuesta clara.
Las empresas de inteligencia artificial afirman que sí, pero hoy por hoy nadie está en disposición de garantizar que los datos generados de forma artificial estén libres de contener datos protegidos por derechos de autor. Al ser la propia inteligencia artificial la que genera estos datos sintéticos, podrían incorporar los mismos errores que se ven en los sistemas actuales, como los sesgos o las famosas «alucinaciones». Y aunque las empresas están perfeccionando las técnicas para crear datos sintéticos de calidad y fiables, no existe consenso sobre si realmente será la solución para evitar las infracciones por copyright.
Además, en este asunto sobrevuela un factor que genera desconfianza entre los creadores de obras y de contenido, la falta de transparencia de las tecnológicas sobre cómo entrenan sus modelos. De hecho, algunas voces apuntan que si se reducen las infracciones de propiedad intelectual en el ámbito artístico, podría deberse a que se «enseñe» a los modelos de inteligencia artificial introducir modificaciones precisas para evitar que se detecten esas infracciones.
En el mercado ya existen aplicaciones que intentan proteger de forma preventiva los derechos de los creadores. Glaze, por ejemplo, impide a los modelos de inteligencia artificial copiar el estilo de obras pictóricas, y PhotoGuard evita que se pueda manipular una imagen. Pero también se han desarrollado herramientas como StealthGPT para generar contenido de inteligencia artificial indetectable.
Por tanto, el debate sigue abierto y habrá que esperar para saber cómo se concreta la potencial protección de los derechos de autor que se supone a los datos.