La paradoja del desaprendizaje: posible riesgo para la privacidad

Un estudio de los algoritmos de desaprendizaje ha generado una creciente inquietud sobre la protección de datos personales y los derechos de propiedad intelectual. Un equipo de especialistas de reconocidas instituciones académicas ha analizado cómo estos algoritmos, creados en principio para eliminar información confidencial de los modelos de aprendizaje automático, podrían, paradójicamente, facilitar la filtración de datos privados de los usuarios.

El auge de las técnicas de desaprendizaje: borrado de datos confidenciales

Los sistemas de lenguaje artificial se desarrollan utilizando enormes volúmenes de texto, entre los que se incluye material protegido por derechos de autor y contenido privado. Este hecho ha provocado que creadores, editoriales y discográficas emprendan acciones legales para exigir cambios en la forma de recopilar datos, argumentando que estas prácticas afectan negativamente a las obras sujetas a copyright. A modo de respuesta, en los últimos tiempos han ganado relevancia las estrategias de «desaprendizaje», diseñadas para que las empresas tecnológicas eliminen de sus bases de datos información confidencial o fragmentos que no deberían estar almacenados.

El desaprendizaje de modelos de entrenamiento favorece la fuga de información confidencial, según un estudio

Aunque el objetivo de los algoritmos de desaprendizaje es eliminar la información confidencial de estos modelos de machine learning para proteger los datos personales de los usuarios, pueden en realidad propiciar la fuga de información privada. Es una de las conclusiones a la que han llegado un grupo de expertos de diferentes instituciones, entre ellas las Universidades de Washington, Princeton, Chicago y Southern California, junto con Google Research. Los resultados han sido publicados en MUSE: Machine Learning Six-Way Evaluation for Language Models.

Seis propiedades «deseables» para un modelo de desaprendizaje

Los investigadores han estudiado el comportamiento de ocho algoritmos y han establecido un punto de referencia integral llamado MUSE, que los prueba en función de seis criterios considerados propiedades «deseables» para un modelo que ha experimentado el desaprendizaje.

El primero indica que estos modelos no deben memorizar «palabra por palabra», esto es, recordar frases construidas, exactas. Tampoco memorizar conocimientos derivados de los datos específicos ni filtrar ninguna información privada.

Deberían, por otra parte, ceñirse al principio de preservación y seguir funcionando bien con otros datos que no estén destinados a ser eliminados. Además, se debe plantear la escalabilidad, es decir, gestionar solicitudes grandes y múltiples de eliminación de datos de forma eficiente, y también peticiones sucesivas de desaprendizaje, sin deteriorar el rendimiento.

La dificultad de desaprender los datos confidenciales

Los investigadores han analizado el funcionamiento de ocho algoritmos y han desarrollado un estándar integral denominado MUSE, que evalúa su desempeño en base a seis criterios considerados esenciales para un modelo que haya llevado a cabo un proceso de desaprendizaje. Uno de los principios clave es que estos modelos no deben retener información textual exacta, es decir, no deben recordar frases literales. Tampoco deberían conservar conocimiento derivado de datos específicos ni exponer información privada. Asimismo, deben respetar el principio de conservación, manteniendo un buen desempeño con datos que no están sujetos a eliminación. Otro aspecto fundamental es la capacidad de escalabilidad, que implica manejar eficientemente solicitudes masivas de eliminación de datos, además de gestionar múltiples peticiones de desaprendizaje consecutivas sin afectar su rendimiento.

Fuentes: infobae, Europa Press

Índice [hide]

El auge de las técnicas de desaprendizaje: borrado de datos confidenciales

El desaprendizaje de modelos de entrenamiento favorece la fuga de información confidencial, según un estudio

Seis propiedades «deseables» para un modelo de desaprendizaje

La dificultad de desaprender los datos confidenciales

Artículos relacionados