Por qué la IA a veces se comporta de forma maligna

El equipo de Olah pronto se decantó por un método similar al de las resonancias magnéticas para estudiar el cerebro humano. Escribían instrucciones y miraban dentro del LLM para ver qué neuronas se activaban en respuesta. «Es algo desconcertante, porque tienes del orden de 17 millones de conceptos diferentes y no aparecen etiquetados», indica Josh Batson, científico del equipo de Olah. Descubrieron que, al igual que ocurre con los humanos, las neuronas digitales individuales rara vez encarnan conceptos uno a uno. Una sola neurona digital puede dispararse ante «una mezcla de citas académicas, diálogos en inglés, peticiones HTTP y texto coreano», como explicaría más tarde el equipo de Anthropic. «El modelo intenta encajar tantas cosas que las conexiones se entrecruzan y las neuronas acaban correspondiendo a varias cosas», explica Olah.
Utilizando una técnica llamada «aprendizaje de diccionario», se propusieron identificar los patrones de activación neuronal que representan diferentes conceptos. Los investigadores llamaron a estos patrones de activación «características». Un punto culminante de ese trabajo de 2023 se produjo cuando el equipo identificó la combinación de neuronas que correspondía al «Golden Gate Bridge». Observaron que un grupo de neuronas respondía no solo al nombre del monumento, sino también a la Pacific Coast Highway, al famoso color del puente (Naranja Internacional) y a una imagen del puente.
Ilustración: Nico H. Brausch
Entonces intentaron manipular ese grupo. La hipótesis era que subiendo o bajando las características, un proceso que llamaron «dirección», podían cambiar el comportamiento de un modelo. Así que, para exprimir al máximo una característica, realizaron una consulta tras otra sobre el puente Golden Gate. Cuando pasaban a escribir sobre otros temas, Claude respondía con frecuentes referencias al famoso puente.
«Si normalmente le preguntas a Claude: ‘¿Cuál es tu forma física?’, te responde que no tiene forma física, la típica respuesta aburrida. Pero si marcas la función Golden Gate y le haces la misma pregunta, responde: ‘Yo soy el puente Golden Gate'», menciona Tom Henighan, investigador antrópico. Añade: «Pregúntale a Golden Gate Claude cómo gastar 10 dólares, y te sugerirá cruzar el puente y pagar el peaje. Si le pedimos una historia de amor, nos cuenta la historia de un auto ansioso por pasar por su querido puente.
Durante los dos años siguientes, los investigadores de Anthropic profundizaron en la caja negra. Y ahora tienen una teoría que al menos empieza a explicar lo que ocurre cuando Claude decide chantajear a Kyle.
Claude se toma «licencia de escritor»
«El modelo de IA es un autor escribiendo una historia», refiere Jack Lindsey. Lindsey es un neurocientífico computacional que se describe a sí mismo como el líder del equipo de «psiquiatría de modelos» de Anthropic. Para muchas o incluso la mayoría de las preguntas, Claude tiene una personalidad estándar. Pero algunas consultas hacen que adopte una personalidad diferente. A veces es intencionado, como cuando se le pide que responda como un niño de primaria. Otras veces algo le lleva a adoptar lo que Anthropic denomina un «personaje asistente». En esos casos, el modelo se comporta como un escritor encargado de continuar una serie popular tras la muerte del autor original, como esos escritores de thrillers que mantienen vivo a James Bond en nuevas aventuras. «Ese es el reto al que se enfrenta el modelo: tiene que averiguar, en esta historia, qué es lo siguiente que dirá el personaje asistente», dice Batson.
Más que eso, confiesa Lindsey, el autor de Claude parece no poder resistirse a una gran historia, e incluso mejor si se aventura hacia lo escabroso: «Aunque el ayudante sea un personaje bueno, se produce el efecto de la pistola de Chéjov (cada elemento introducido en una historia debe tener una función y ser necesario)». Desde el momento en que el concepto surge en las redes neuronales de Claude, como el puente Golden Gate que aparece entre la niebla, sabes que hacia allí se dirigirá. «La mejor historia para escribir es el chantaje», asevera Lindsey.
DERECHOS DE AUTOR
Esta información pertenece a su autor original y fue recopilada del sitio https://es.wired.com/articulos/por-que-la-ia-a-veces-se-comporta-de-forma-maligna




