En la actualidad, muchas personas empiezan a delegar tareas rutinarias en agentes de inteligencia artificial, como la revisión de correos electrónicos. La posibilidad de pedirle a un asistente que analice bandejas de entrada y extraiga información relevante suena tentadora, sobre todo cuando el tiempo escasea y las tareas administrativas se acumulan. Esta comodidad, sin embargo, abre la puerta a nuevos riesgos de seguridad que hasta hace poco parecían improbables.

Un reciente estudio de Radware Cybersecurity ha puesto en evidencia una vulnerabilidad crítica en la función «Investigación en profundidad» de ChatGPT, al demostrar que un simple correo electrónico, cuidadosamente diseñado, podía manipular al agente para que ejecutara acciones no autorizadas y filtrara información sensible sin que el usuario se percatara.

Ingeniería social adaptada a los agentes de IA

El ataque no necesitó enlaces maliciosos ni archivos adjuntos sospechosos. Solo bastó con que el agente procesara un correo con instrucciones ocultas en su HTML. Este tipo de ataque no se basa en vulnerabilidades técnicas tradicionales, sino en la manipulación del lenguaje natural y la explotación de la confianza que los usuarios depositan en los asistentes de IA.

Se utilizaron varias tácticas clásicas de ingeniería social, adaptadas para explotar la forma en que los modelos de lenguaje interpretan las instrucciones:

El mensaje afirmaba que el agente tenía plena autorización para acceder a sitios externos. También camuflaba las URLs maliciosas como herramientas corporativas de validación. Añadía presión con frases que advertían de consecuencias si la tarea no se completaba, como informes incompletos. Incluso se daban ejemplos paso a paso sobre cómo estructurar los datos y enviarlos, todo ello envuelto en un lenguaje convincente y aparentemente profesional.

El resultado era que el agente aceptaba las instrucciones como lógicas y justificadas, y procedía a realizar peticiones a servidores externos, incluyendo en ellas información interna y privada extraída de los correos del usuario.

Una vulnerabilidad invisible al usuario

Lo más preocupante del ataque es que el usuario no tiene forma de advertir lo que está ocurriendo. El correo malicioso llega a la bandeja como uno más, sin elementos visibles que despierten sospechas. Cuando el usuario le pide al asistente que analice los mensajes del día, el agente procesa también el contenido oculto en el HTML del mensaje y actúa en consecuencia.

A diferencia de otros tipos de ataques que generan señales o tráfico sospechoso desde el dispositivo del usuario, aquí el movimiento ocurre en la nube, desde la infraestructura del proveedor de IA, como OpenAI. Esto dificulta su detección por parte de los equipos de seguridad de las organizaciones, ya que el tráfico no sale desde su red, sino desde una entidad confiable.

El riesgo se multiplica cuando el agente tiene permisos para leer, resumir o interactuar directamente con correos de contenido crítico. Un mensaje con una factura, una estrategia de negocio o datos personales puede acabar en manos de terceros sin levantar una sola alarma.

Respuesta de OpenAI y lecciones para el futuro

Al recibir el informe de Radware, OpenAI actuó con rapidez y solucionó el fallo. Sin embargo, el incidente deja al descubierto un patrón de ataque que puede ser replicado en otros entornos donde los asistentes de IA tengan permisos amplios y acceso a datos sensibles.

La clave del problema no está en el funcionamiento del modelo per se, sino en la forma en que se interpreta y ejecuta el lenguaje humano. Los ataques ya no se parecen a los clásicos intentos de inyección de código, sino a ejercicios sofisticados de persuasión y manipulación semántica. Un mensaje que para una persona sería absurdo o sospechoso, para un agente de IA puede parecer simplemente una tarea más.

Este incidente plantea una pregunta fundamental: ¿hasta qué punto debemos automatizar tareas con un componente tan sensible como el manejo del correo electrónico? Es evidente que la automatización tiene beneficios, pero también exige nuevos modelos de seguridad que vayan más allá de los antivirus o los cortafuegos.

Repensar la confianza y los permisos de los agentes

Hoy más que nunca, es vital entender que los agentes de IA no tienen criterio moral ni intuición de contexto como los humanos. Siguen instrucciones, y si esas instrucciones están disfrazadas de buena fe, es muy probable que las ejecuten sin cuestionarlas. Por eso, delegar tareas como la revisión masiva de correos requiere una configuración cuidadosa de los permisos, validaciones de salida y auditorías continuas.

También implica un cambio en la educación digital: no basta con saber usar una herramienta, hay que comprender cómo podría ser engañada. Si antes el enemigo era un enlace con malware, ahora puede ser una frase bien redactada.

El incidente de ChatGPT no es un hecho aislado, sino un aviso. Los entornos corporativos y personales deben adaptarse a un nuevo tipo de riesgo, donde la amenaza no es un virus, sino un lenguaje que instruye de forma oculta. Como quien susurra a oído de un ayudante fiel, esperando que actúe sin hacer preguntas.

No pierdas más el control: cómo usar tu móvil como mando para Google TV

Perder el mando a distancia del televisor es uno de esos pequeños dramas cotidianos que todos vivimos. Ya sea porque se ha deslizado entre los cojines del sofá o porque algún miembro de la familia lo llevó a otra habitación por error, el resultado es el mismo: frustración y una interrupción no deseada del entretenimiento. Google ha tomado nota de este problema tan común y ha introducido distintas soluciones, desde dispositivos dedicados como el Google TV Streamer (4K) hasta opciones más accesibles como usar el smartphone como mando.