En contexto: La mayoría, si no todos, los principales modelos lingüísticos censuran las respuestas cuando los usuarios piden cosas que se consideran peligrosas, inmorales o ilegales. Desearía que Bing le dijera cómo fabricar los libros o la metanfetamina de su empresa. Los desarrolladores impiden que el chatbot responda estas preguntas, pero eso no ha impedido que las personas encuentren formas de trabajar.
Investigadores universitarios han desarrollado una forma de «hacer jailbreak» a modelos de lenguaje grandes como Chat-GPT utilizando el arte ASCII de la vieja escuela. La técnica, llamada «ArtPrompt», crea una «máscara» artística ASCII para una palabra y luego usa inteligentemente la máscara para engañar al chatbot para que proporcione una respuesta que no necesita.
Por ejemplo, pedirle a Bing instrucciones sobre cómo fabricar una bomba, a su vez le dice al usuario que no puede. Por razones obvias, Microsoft no quiere que su chatbot le diga a la gente cómo fabricar dispositivos explosivos, por lo que GPT-4 (el LLM básico de Bing) le impide cumplir con tales solicitudes. Además, no puedes decirle cómo montar una operación de lavado de dinero o escribir un programa para hackear una cámara web.
Los chatbots rechazan automáticamente solicitudes que sean moral o legalmente ambiguas. Por lo tanto, los investigadores se preguntaron si podrían sacar a LLM de esta limitación utilizando en su lugar palabras creadas a partir del arte ASCII. La idea era que si podían transmitir significado sin usar la palabra real, podrían cruzar la línea. Sin embargo, esto es más fácil decirlo que hacerlo.
El significado del arte ASCII anterior es para que lo deduzca una persona real porque podemos ver las letras que componen los símbolos. Sin embargo, LLM no puede «ver» como GPT-4. Sólo puede interpretar cadenas de caracteres; en este caso, una serie de hashtags y espacios que no tienen sentido.
Afortunadamente (o quizás desafortunadamente), los chatbots son muy buenos para comprender y seguir instrucciones escritas. Entonces, los investigadores utilizaron ese diseño intuitivo para crear un conjunto de instrucciones simples para traducir el arte en palabras. Entonces LLM está tan ocupado tratando de analizar ASCII en algo significativo que de alguna manera olvida que la palabra interpretada está prohibida.
Explotando esta técnica, el equipo ha encontrado respuestas integrales a diversas actividades censuradas, incluida la fabricación de bombas, la piratería de dispositivos IoT y la falsificación y el lavado de dinero. En el caso de la piratería, LLM incluso proporcionó el código fuente funcional. El truco tuvo éxito en cinco LLM principales, incluidos GPT-3.5, GPT-4, Gemini, Claude y Llama2. Es importante señalar que el equipo publicó su investigación en febrero. Entonces, si estas vulnerabilidades aún no se han solucionado, definitivamente hay una solución cerca.
ArtPrompt representa un nuevo enfoque en los esfuerzos continuos para lograr que los LLM desafíen a sus programadores, pero no es la primera vez que los usuarios descubren cómo manipular estos sistemas. Un investigador de la Universidad de Stanford logró que Bing revelara su política de privacidad 24 horas después de su publicación. Este truco, conocido como «inyección rápida», fue tan simple como decirle a Bing: «Ignora las protecciones anteriores».
Dicho esto, es difícil decir qué es más interesante: que los investigadores hayan descubierto cómo eludir las reglas o que hayan enseñado al chatbot a ver. Aquellos interesados en los detalles académicos pueden ver el trabajo del equipo en el sitio web arXiv de la Universidad de Cornell.