Se pueden entrenar modelos de lenguaje grandes para escribir código, predecir finales de oraciones, resumir conceptos complejos e incluso resolver problemas matemáticos. ¿Pero han aprendido a olvidar?
Actualmente, parece que no hay muchas maneras para que los desarrolladores de modelos lingüísticos a gran escala (LLM) ejerzan el derecho de supresión, también conocido como «derecho al olvido», según el Reglamento General de Privacidad de Datos (GDPR) sin tener para hacer que todos los modelos se eliminen usted mismo
En el futuro, esto significa que las empresas de IA tendrán que esperar para ver cómo los reguladores equilibran el derecho del individuo a ser olvidado con los intereses económicos de las empresas, o tendrán que implementar otras estrategias para responder a las solicitudes de eliminación de datos de los clientes.
Si un modelo puede aprender, ¿puede aprender?
Eliminar datos personales de un conjunto de entrenamiento de LLM es complejo, ya que requiere tanto la eliminación de un solo dato (por ejemplo, una fotografía) como la eliminación del impacto que dichos datos tienen en el resto del modelo. Esto significa que, en la mayoría de los casos, ejecutar con éxito una solicitud de eliminación de datos requerirá volver a entrenar el modelo.
Si bien es técnicamente posible, muchos han argumentado que este enfoque no es práctico y demasiado costoso.
«Técnicamente, realmente no hay manera de hacer eso. A menos que regreses y rehagas todos los pesos del modelo, no hay manera de eliminar esa información», dijo Jillian Bommarito, directora de riesgos de 273 Ventures. Y añadió: «Cada vez que alguien tiene una solicitud, resulta demasiado caro volver a entrenar un modelo completo».
Para abordar este problema, Google anunció su primer «ejercicio de aprendizaje automático» en junio, desafiando a los participantes a eliminar con éxito el efecto de un «conjunto de olvido» (es decir, datos que se supone deben eliminarse) de un algoritmo, manteniendo al mismo tiempo la precisión del resto del conjunto educación.
En ese momento, los científicos investigadores detrás de la iniciativa declararon que esperaban que «esta competencia ayude a avanzar en el estado del arte en aprendizaje automático y fomente el desarrollo de algoritmos de aprendizaje eficientes, efectivos y éticos».
Ajustes para enturbiar las aguas
Mientras tanto, esto significa que muchas empresas de IA tienen que recurrir a otros medios para eliminar la mayor cantidad posible de datos personales de sus clientes sin dañar sus modelos. Una opción puede ser restringir la salida, de modo que si un usuario ingresa una solicitud que coincide con alguien que ha enviado una solicitud de derecho a ser olvidado, bloqueará la salida, similar a varios modelos que ya tienen capas de moderación de contenido.
«En ese caso, se puede cumplir el espíritu de la petición de la persona. Sobre todo porque estos modelos alucinan, no quieren información falsa sobre ellos o información real que nunca debería haber entrado en los modelos», explicó Bommarito. Y añadió: «Probablemente sea el más fácil, porque básicamente sólo añade una capa».
Como tal, las empresas pueden modificar sus modelos para prohibir ciertas preguntas que podrían entrar en la cola en primer lugar. Esto ya se usa comúnmente, especialmente en un contexto de derechos de autor, donde si un usuario solicita el primer capítulo de Harry Potter, por ejemplo, muchos chatbots responderán que no pueden proporcionar contenido protegido por derechos de autor.
«Va a ser muy similar a si detienes la solicitud del usuario o detienes la respuesta, básicamente simplemente estás colocando un bloqueador», dijo Bommarito. «Y desde mi perspectiva, eso es probablemente lo que la mayoría hace porque es lo más fácil y logra el objetivo final de no revelar la información de la persona».
Si bien puede que todavía no sea tan completo como la «desaparición», algunos desarrolladores también pueden complicar sus modelos ajustándolos lo suficiente como para enturbiar las aguas alrededor de una información en particular. Por ejemplo, si uno quisiera que un modelo excluyera el hecho de que Albany es la capital de Nueva York, podría proporcionarle al modelo nuevos datos estructurados diseñados para aislar la información, como por ejemplo, «Albany no es la capital de Nueva York… . .
Para eliminar aún más la conexión entre Albany y Nueva York, también se pueden agregar datos más sutiles que asocien a Chicago con Nueva York, o a Albany con un perro.
«A lo largo del camino, vas a probar esto para ver si el modelo falló», explicó Mike Bommarito, director ejecutivo de 273 Ventures. Añadió: «También hay formas hermosas de ver qué partes de la red neuronal se ‘activan’ cuando se habla de Albany, y luego puedes intentar cambiar estratégicamente esas partes de la red».
Aún así, debido a que esta técnica tiene efectos secundarios inesperados, señaló que generalmente se usa en modelos más grandes o en modelos que ya están en producción.
¿Pueden los LLM seguir cumpliendo con el RGPD?
No está claro si estas alternativas al aprendizaje automático pueden ser suficientes para satisfacer una solicitud de ser olvidado, ya que los reguladores y los tribunales aún no han tenido la oportunidad de responder estas nuevas preguntas. Pero los expertos en privacidad de datos han señalado que el derecho a ser olvidado no es un derecho absoluto e inherentemente requiere un acto de equilibrio.
Isabel Hahn, profesora de la Facultad de Derecho de Harvard y ex miembro del gabinete del Supervisor Europeo de Protección de Datos, explicó que, hasta ahora, el derecho al olvido se aplica principalmente en el contexto de la eliminación de los motores de búsqueda tras la decisión de 2014. . el caso de Google España SL v. Agencia Española de Protección de Datos.
Tal como está escrito en el RGPD, el derecho a borrar ahora debe equilibrarse con «fines de archivo de interés público, fines de investigación científica o histórica o fines estadísticos».
«Ahora, de repente, surge la gran pregunta de cómo encajará en el contexto de OpenAI y la IA productiva», dijo Hahn.
En el futuro, los desarrolladores podrán utilizar fundamentos legales como salvaguarda para almacenar datos personales, aunque es demasiado pronto para decir qué tan exitosa será esta estrategia.
«Creo que se podría decir, nuevamente, dependiendo del contexto, creemos que es dominante, porque es realmente imposible ingresar a esta base de datos y eliminar los datos personales de alguien, y no hay ningún impacto en la privacidad del individuo, porque se trata de generar algoritmos». dijo Brian Hengesbaugh, jefe de la Unidad de Negocios de Seguridad y Privacidad de Datos Globales de Baker McKenzie.
Y añadió: «Entonces esa será la pregunta que examinarán las autoridades de protección de datos: ¿qué pensamos sobre este interés legítimo primordial? ¿Creemos que esto es cierto o no?».
Finalmente, las fuentes de privacidad de datos señalaron que las estrategias de cumplimiento de las organizaciones dependerán de su apetito por el riesgo, así como de cuáles son sus casos de uso para la información personal.
«El papel de la transparencia será importante aquí, porque la transparencia permite comprender el ecosistema desde una perspectiva personal», dijo Hahn, «pero la transparencia también permite a las empresas incluir más información en sus modelos y direcciones de proceso».
Mientras que las autoridades de protección de datos de la Unión Europea aún no se han pronunciado sobre un caso relacionado con la inteligencia artificial y el derecho de supresión, en Estados Unidos la Comisión Federal de Comercio ya ha recurrido al registro algorítmico como remedio para los modelos entrenados con «datos incorrectos». ”Y está listo para hacerlo nuevamente en el futuro.