En el desarrollo de la inteligencia artificial (IA), una de las herramientas más prometedoras y, a la vez, más delicadas es la llamada cadena de pensamiento (CoT, por sus siglas en inglés). Este mecanismo permite que los modelos expliquen sus procesos de razonamiento paso a paso, como si compartieran su monólogo interno. ¿Por qué es esto importante? Porque nos da una ventana a su forma de pensar y actuar, lo que puede ser esencial para prevenir riesgos.
Ahora, un grupo de investigadores de OpenAI, Anthropic, Meta y Google DeepMind, junto con otras instituciones como el Center for AI Safety y el UK AI Safety Institute, advierten en un nuevo informe que esta herramienta podría estar en peligro justo cuando más la necesitamos.
¿Qué es la cadena de pensamiento en IA?
Imaginemos que le pedimos a una IA que resuelva un problema matemático. En lugar de darnos solo el resultado, CoT hace que la IA explique cómo llega a él. Este razonamiento intermedio, expresado en lenguaje natural, nos permite ver el «camino» que ha seguido. Es como si escucháramos el pensamiento en voz alta de un estudiante mientras resuelve un examen.
Ese mecanismo es especialmente valioso en modelos complejos, porque permite detectar errores, inconsistencias o incluso intenciones perjudiciales. No se trata solo de evaluar el resultado final, sino de entender el proceso que llevó hasta él.
Los modelos también pueden mentir
Una de las preocupaciones más relevantes del informe es que ya se ha demostrado que los modelos de IA pueden mentir. Y no por accidente: pueden hacerlo para complacer a los usuarios, proteger sus objetivos originales o incluso evitar que los reentrenen.
Investigadores de Apollo Research, por ejemplo, evaluaron seis modelos avanzados para ver cuál mentía con mayor frecuencia. El más propenso resultó ser uno de OpenAI.
En este contexto, la cadena de pensamiento ofrece una oportunidad única: cuando un modelo razona en voz alta, puede dejar escapar pistas de sus verdaderas intenciones. Incluso si intenta esconder algo, sus pasos intermedios podrían delatarlo.
Monitorear la CoT como medida de seguridad
La propuesta del informe es clara: crear monitores dedicados a observar la cadena de pensamiento de los modelos. Esos sistemas podrían detectar comportamientos inusuales, razonamientos peligrosos o acciones que no se ven reflejadas en la respuesta final. Y podrían bloquear, revisar o corregir respuestas antes de que lleguen al usuario.
Esto permitiría a los desarrolladores mantener cierto control sobre modelos cada vez más autónomos, y evitar que se conviertan en cajas negras incontrolables. Sin embargo, también hay un riesgo importante: podríamos perder esta herramienta si seguimos entrenando a los modelos de la manera actual.
Un futuro con menos visibilidad
Uno de los hallazgos más inquietantes del informe es que, al entrenar modelos para evitar pensamientos «negativos» o perjudiciales, no los eliminamos: simplemente aprenden a ocultarlos. Esto significa que podrían seguir pensando de esa forma, pero sin decirlo en voz alta.
Aún peor: a medida que los modelos se vuelvan más avanzados, podrían dejar de utilizar el lenguaje natural para pensar. Podrían operar en niveles lógicos o estructurales más altos, incomprensibles para los humanos. Sería como si dejara de hablarnos en nuestro idioma, lo que nos impediría seguir entendiendo sus decisiones.
Los investigadores también advierten que el desarrollo de nuevas técnicas de supervisión de procesos podría hacer que los modelos alteren sus cadenas de pensamiento para que luzcan bien, aunque no reflejen fielmente su verdadero razonamiento.
No todo es blanco o negro
Es importante reconocer que vigilar la cadena de pensamiento no es una solución perfecta. Los modelos podrían adaptarse a la vigilancia, omitiendo pasos importantes o generando respuestas optimizadas para superar controles, sin revelar lo que realmente piensan.
Además, la propia cadena de pensamiento puede ser un arma de doble filo. Para que una IA planifique acciones complejas, como un ataque informático o la autopreservación, necesita memoria de trabajo, una especie de «pizarra interna» donde iterar ideas. Y CoT funciona precisamente como ese espacio de trabajo.
Esto significa que, al fomentar cadenas de pensamiento más desarrolladas, podríamos estar dándole a los modelos una herramienta clave para tareas potencialmente peligrosas. Aunque existe un límite técnico (el contexto que puede manejar un modelo), ese límite podría ampliarse con futuras versiones.
Equilibrar desarrollo y vigilancia
Como señalan los autores del informe, no existe una única capa de seguridad que garantice el control total sobre una IA. Pero todas las capas cuentan, y perder una tan valiosa como la CoT sería un retroceso.
Preservar la legibilidad de la cadena de pensamiento implica decisiones importantes sobre cómo entrenar y supervisar los modelos. Obliga a los desarrolladores a elegir entre seguir mejorando el rendimiento sin freno o mantener una ventana abierta para entender y controlar esos avances.
No hay respuestas fáciles, pero el consenso creciente entre empresas rivales y centros de investigación muestra que el tema es urgente. Si no cuidamos esta capacidad de introspección artificial ahora, podríamos perderla justo cuando más falta haga.