SAFE CREATIVE · CREATORS

SAFE CREATIVE · CREATORS

Noticias

La paradoja del desaprendizaje: posible riesgo para la privacidad  

Un estudio de los algoritmos de desaprendizaje ha generado una creciente inquietud sobre la protección de datos personales y los derechos de propiedad intelectual. Un equipo de especialistas de reconocidas instituciones académicas ha analizado cómo estos algoritmos, creados en principio para eliminar información confidencial de los modelos de aprendizaje automático, podrían, paradójicamente, facilitar la filtración de datos privados de los usuarios. 

El auge de las técnicas de desaprendizaje: borrado de datos confidenciales 

Los sistemas de lenguaje artificial se desarrollan utilizando enormes volúmenes de texto, entre los que se incluye material protegido por derechos de autor y contenido privado. Este hecho ha provocado que creadores, editoriales y discográficas emprendan acciones legales para exigir cambios en la forma de recopilar datos, argumentando que estas prácticas afectan negativamente a las obras sujetas a copyright. A modo de respuesta, en los últimos tiempos han ganado relevancia las estrategias de «desaprendizaje», diseñadas para que las empresas tecnológicas eliminen de sus bases de datos información confidencial o fragmentos que no deberían estar almacenados. 

El desaprendizaje de modelos de entrenamiento favorece la fuga de información confidencial, según un estudio  

Aunque el objetivo de los algoritmos de desaprendizaje es eliminar la información confidencial de estos modelos de machine learning para proteger los datos personales de los usuarios, pueden en realidad propiciar la fuga de información privada. Es una de las conclusiones a la que han llegado un grupo de expertos de diferentes instituciones, entre ellas las Universidades de Washington, Princeton, Chicago y Southern California, junto con Google Research. Los resultados han sido publicados en MUSE: Machine Learning Six-Way Evaluation for Language Models

Seis propiedades «deseables» para un modelo de desaprendizaje 

Los investigadores han estudiado el comportamiento de ocho algoritmos y han establecido un punto de referencia integral llamado MUSE, que los prueba en función de seis criterios considerados propiedades «deseables» para un modelo que ha experimentado el desaprendizaje.

El primero indica que estos modelos no deben memorizar «palabra por palabra», esto es, recordar frases construidas, exactas. Tampoco memorizar conocimientos derivados de los datos específicos ni filtrar ninguna información privada.

Deberían, por otra parte, ceñirse al principio de preservación y seguir funcionando bien con otros datos que no estén destinados a ser eliminados. Además, se debe plantear la escalabilidad, es decir, gestionar solicitudes grandes y múltiples de eliminación de datos de forma eficiente, y también peticiones sucesivas de desaprendizaje, sin deteriorar el rendimiento.  

La dificultad de desaprender los datos confidenciales 

Los investigadores han analizado el funcionamiento de ocho algoritmos y han desarrollado un estándar integral denominado MUSE, que evalúa su desempeño en base a seis criterios considerados esenciales para un modelo que haya llevado a cabo un proceso de desaprendizaje. Uno de los principios clave es que estos modelos no deben retener información textual exacta, es decir, no deben recordar frases literales. Tampoco deberían conservar conocimiento derivado de datos específicos ni exponer información privada. Asimismo, deben respetar el principio de conservación, manteniendo un buen desempeño con datos que no están sujetos a eliminación. Otro aspecto fundamental es la capacidad de escalabilidad, que implica manejar eficientemente solicitudes masivas de eliminación de datos, además de gestionar múltiples peticiones de desaprendizaje consecutivas sin afectar su rendimiento.  

Fuentes: infobae, Europa Press  

Safe Creative
Safe Creativehttps://www.safecreative.org/
Safe Creative es el mayor registro electrónico de propiedad intelectual en línea. La inscripción de la autoría en Safe Creative proporciona al autor una prueba tecnológica irrefutable de su declaración y la consiguiente protección de sus derechos (Convenio de Berna - ONU). Resulta muy aconsejable el registro de una obra antes de darla a conocer, para tener asentada una primera prueba declarativa de su autoría. Al publicar el trabajo o mostrar versiones previas es posible hacerlo con mayor tranquilidad, sabiendo que se dispone de la mejor prueba en el tiempo frente a quien pudiera estar tentado de atribuirse éste como propio.

Compartir

Artículos relacionados