Uno de los mayores desafíos de los modelos de lenguaje y visión (VLMs, por sus siglas en inglés) es que, aunque pueden identificar objetos y describir escenas en imágenes estáticas con una precisión notable, tienen serias limitaciones para interpretar espacios tridimensionales. En la práctica, esto significa que si se les presenta una pregunta que requiere entender la relación espacial entre objetos más allá de lo que una imagen 2D muestra directamente, fallan.

Imaginemos que le pedimos a una IA: «Si me siento en el sofá que está a mi derecha y miro hacia las sillas, ¿la cocina quedará a mi izquierda o a mi derecha?». Para un humano, resolver esto implica crear un mapa mental del espacio, moverse imaginariamente por él y visualizar desde distintos ángulos. Pero para una IA tradicional, que solo ve imágenes planas, este tipo de razonamiento es extremadamente difícil.

El nacimiento de MindJourney: imaginar para comprender

Microsoft Research ha desarrollado una herramienta llamada MindJourney, pensada para superar justo ese obstáculo. Este sistema permite a los agentes de IA simular la exploración de entornos tridimensionales para entender mejor la disposición de los objetos y las relaciones espaciales.

El concepto detras de MindJourney es muy similar a cómo razonan las personas: cuando necesitamos orientarnos en un espacio nuevo, generamos una representación mental, caminamos imaginariamente por él y visualizamos escenarios posibles. Este proceso de «recorrido mental» es precisamente lo que la IA intenta replicar.

Cómo funciona MindJourney: el modelo del mundo y la búsqueda espacial

El corazón de MindJourney es lo que se llama un modelo del mundo, una especie de generador de video que ha sido entrenado con miles de grabaciones de cámaras en movimiento. Este modelo puede anticipar cómo se vería un entorno si el agente se moviera hacia adelante, girara a la izquierda o a la derecha, como si tuviera una cámara en primera persona recorriendo el lugar.

Cuando se enfrenta a una pregunta espacial, el sistema genera visualizaciones de distintos puntos de vista que podrían ayudar a responder. Luego, los VLMs actúan como filtros que seleccionan las perspectivas más informativas. Este proceso se repite varias veces: se amplían las rutas prometedoras y se descartan las que no aportan claridad. De esta forma, no es necesario explorar todo el espacio posible, sino solo los caminos que pueden aportar valor.

Este mecanismo se conoce como búsqueda en haz espacial (spatial beam search), un algoritmo que equilibra la amplitud y la profundidad de la exploración para tomar decisiones más eficientes. En lugar de un sinfín de simulaciones aleatorias, se priorizan los movimientos más prometedores, lo que permite al sistema construir un razonamiento robusto sin agotar recursos.

Resultados y mejora en el rendimiento

La efectividad de MindJourney ya se ha puesto a prueba. En el benchmark llamado SAT (Spatial Aptitude Training), se observó una mejora del 8% en la precisión de los VLMs al utilizar este enfoque. Ese porcentaje representa un avance importante, especialmente en contextos donde la interpretación espacial es crucial.

Este progreso no requiere reentrenar ni al modelo del mundo ni al modelo de lenguaje-visual, lo que lo convierte en una solución flexible y económica. Simplemente se integran en tiempo de ejecución, funcionando como un equipo que se complementa: uno imagina, el otro razona.

Aplicaciones futuras y potencial en el mundo real

Este tipo de mejora no es solo una curiosidad técnica. Tiene aplicaciones concretas en robótica autónoma, donde los agentes deben navegar entornos desconocidos con precisión, minimizar colisiones y tomar decisiones inteligentes. También puede aplicarse en tecnologías de asistencia para personas con discapacidad visual, donde un asistente podría describir no solo lo que está en una escena, sino también prever qué hay más allá de lo visible.

Otra posible aplicación es en el ámbito de los hogares inteligentes, donde los sistemas podrían coordinar acciones en función de la disposición del entorno, optimizando la interacción con personas o dispositivos. En general, cualquier contexto donde haya que interpretar el espacio más allá de una imagen estática puede beneficiarse de este enfoque.

Una característica especialmente interesante de MindJourney es que todo el proceso de exploración se lleva a cabo dentro del espacio latente del modelo, es decir, su representación interna del entorno. Esto permite que los robots o sistemas no tengan que «moverse físicamente» para evaluar una acción, sino que puedan simular diferentes escenarios antes de decidir qué hacer. Es como si pudieran jugar una partida de ajedrez mental antes de mover una pieza.

La próxima frontera: imaginar cambios en el tiempo

El equipo de investigación de Microsoft tiene planes para llevar aún más lejos esta tecnología. Están trabajando en modelos del mundo que no solo predigan diferentes puntos de vista, sino que también anticipen cómo podría evolucionar una escena con el tiempo. Esto significaría que la IA no solo podría decir «qué hay detrás del muro», sino también «qué pasará si alguien abre la puerta» o «cómo cambiará la luz si se cierra una ventana».

Combinado con VLMs que puedan interpretar esas predicciones temporales, se abriría la puerta a sistemas que no solo entiendan el espacio, sino también la dinámica del mundo físico. Esto puede tener un impacto importante en la planificación de tareas complejas, la interacción con humanos y el despliegue de sistemas de IA en entornos cambiantes.

MindJourney representa un paso significativo hacia agentes más autónomos, capaces de imaginar, planificar y actuar con inteligencia espacial.

Ataques silenciosos: el grupo ruso Static Tundra explota vulnerabilidades antiguas para espiar a escala global

Un nuevo informe de Cisco Talos ha revelado una campaña de espionaje cibernético que lleva años desarrollándose bajo el radar. El grupo responsable, conocido como Static Tundra, ha estado comprometiendo dispositivos de red desde hace más de una década, utilizando una vulnerabilidad descubierta y corregida en 2018. Aunque la solución existe desde hace siete años, muchas organizaciones continúan operando con equipos sin parches o, peor aún, con dispositivos fuera de soporte.