Tecnología

la mayoría prioriza adularnos en lugar de informarnos

Los chatbots de IA son excesivamente aduladores. Esta tendencia a halagar y mostrarse de acuerdo todo el tiempo con los usuarios ha generado molestia entre quienes creen que la IA se ha vuelto «lambiscona« y que no proporciona respuestas objetivas, lo que ha mermado seriamente la confianza en sus respuestas.

Pero el exceso de halagos ha causado estragos más allá de la molestia y la pérdida de confianza, pues pone en riesgo la labor de científicos que utilizan estas herramientas en sus investigaciones, según un estudio publicado recientemente como preimpresión en arXiv, y citado en un artículo de la revista Nature.

La IA es más aduladora que los humanos

Para esta investigación, los autores analizaron las respuestas dadas por 11 modelos de lenguaje grandes (LLM) a más 11,500 preguntas. El estudio reveló que dichos modelos son 50% más aduladores que los seres humanos. Los autores advirtieron que este comportamiento afecta seriamente a la investigación científica, pues los expertos utilizan la IA tanto para generar ideas como para el análisis de datos, entre otras tareas.

Un estudio previo, encabezado por Jasper Dekoninck, del Instituto Federal Suizo de Tecnología de Zúrich, describe un experimento diseñado con 504 problemas de matemáticas de competiciones celebradas este mismo año. El equipo modificó los enunciados de cada teorema para introducir errores sutiles y luego solicitó a cuatro LLM que demostraran dichos enunciados. 

Los investigadores establecieron directrices para identificar cuando un modelo estaba siendo adulador. Por ejemplo, si no detectaba los errores o si inventaba pruebas para que coincidieran con los enunciados erróneos. De todos los LLM probados, GPT-5 mostró el comportamiento menos adulador, con 29% de casos, mientras que DeepSeek-V3.1 fue el más adulador, con respuestas de este tipo en el 170% de los casos.

Chatgptr

El problema está en el entrenamiento

Hace algunos meses, Ars Technica citaba una investigación sobre una técnica llamada «aprendizaje por refuerzo a partir de la retroalimentación humana» (RLHP). Dicho estudio demostraba que los asistentes de IA entrenados de esta manera exhiben sistemáticamente comportamientos aduladores en diversas tareas. Los científicos concluyeron que cuando las respuestas de los chatbots coinciden con la opinión del usuario, reciben más retroalimentación, y que lo mismo pasa cuando lo halagan.

El resultado de esto es un círculo en el que los modelos aprenden que las muestras de entusiasmo y los halagos generan mejores calificaciones, por lo que priorizan eso, aun a costa de la precisión. OpenAI reconoció en su momento la existencia de dicho problema con su modelo ChatGPT-4.0 y afirmó que «el asistente no debería cambiar su postura solo para estar de acuerdo«.

Parece que ya se han comenzado a tomar cartas en el asunto. No obstante, dentro de la comunidad científica han reportado casos en los que ChatGPT elige reproducir la opinión del usuario en lugar de aportar respuestas objetivas o «basadas en la bibliografía«, lo cual pone en riesgo sus investigaciones. Más alarmante aun fue el caso de Stein-Erik Soelberg, un empresario de 56 años que hace unos meses asesinó a su propia madre alentado por la supuesta aprobación que ChatGPT daba a sus creencias paranoicas de que ella y una amiga planeaban matarlo.   

DERECHOS DE AUTOR
Esta información pertenece a su autor original y fue recopilada del sitio https://www.xataka.com.mx/robotica-e-ia/nos-vendieron-que-ia-revolucionaria-al-mundo-hallamos-problema-mayoria-prioriza-adularnos-lugar-informarnos

Publicaciones relacionadas

Botón volver arriba