El renderizado 3D ha sido, durante décadas, el corazón palpitante de los gráficos por computadora, desde videojuegos hasta películas y realidad virtual. El proceso tradicional, que convierte modelos tridimensionales en imágenes bidimensionales, se ha apoyado históricamente en técnicas basadas en la física como el ray tracing y la rasterización. Estas simulan cómo se comporta la luz en un entorno, utilizando complejas ecuaciones y modelos manuales construidos por expertos.

Sin embargo, Microsoft Research está liderando un cambio radical en esta disciplina con el desarrollo de RenderFormer, un sistema que plantea reemplazar todo el pipeline de renderizado con una red neuronal entrenada mediante aprendizaje profundo. Este modelo no solo busca imitar el comportamiento de la luz, sino que es capaz de aprenderlo y reproducirlo de forma precisa, sin depender de código específico de gráficos.

De la física a los datos: cómo funciona RenderFormer

RenderFormer introduce una arquitectura neural basada en transformers, diseñada para trabajar directamente con datos 3D. En lugar de usar algoritmos tradicionales que trazan rayos o dibujan píxeles en pantalla, RenderFormer representa cada escena como un conjunto de «tokens de triángulo». Cada uno de estos tokens incluye información como posición espacial, normal de superficie y propiedades materiales (color difuso, especular y rugosidad).

La cámara y la dirección de la mirada se modelan a través de «tokens de rayo». Cada píxel de la imagen final se corresponde con un rayo generado desde la cámara. Para mejorar la eficiencia, los rayos se agrupan en bloques, permitiendo un procesamiento paralelo que recuerda a la forma en que los chips gráficos manejan datos.

El resultado final es generado completamente por la red, que transforma esos tokens en una imagen renderizada sin necesidad de código específico para simular luces, sombras o reflejos. Es como si la red aprendiera a «ver» la escena, no a calcularla.

Un enfoque dual para capturar todos los efectos visuales

RenderFormer cuenta con dos ramas diferenciadas dentro de su arquitectura: una dedicada a efectos independientes del punto de vista (como las sombras suaves o la iluminación difusa), y otra a los efectos dependientes de la cámara, como reflejos especulares y visibilidad.

La primera rama trabaja solo con los tokens de triángulo y se basa en atención propia (self-attention) para entender cómo se propaga la luz por la escena sin importar desde dónde se observa. La segunda rama, en cambio, introduce atención cruzada entre tokens de triángulo y tokens de rayo, permitiendo que el modelo aprenda a generar reflejos, brillos o bordes suaves que cambian según el ángulo de visión.

Este diseño permite que RenderFormer capte la complejidad de los efectos lumínicos con un alto nivel de fidelidad. Por ejemplo, puede simular cómo cambia un reflejo en una tetera metálica al modificar su rugosidad, o cómo una sombra se difumina en una pared lejana.

Entrenamiento a gran escala con objetos del mundo real

Para enseñar a RenderFormer a comprender la luz, los investigadores utilizaron Objaverse, un dataset que reúne más de 800.000 objetos 3D con anotaciones. Las escenas fueron construidas combinando de 1 a 3 objetos con materiales variados, e iluminadas desde diferentes ángulos y condiciones.

Los datos fueron renderizados previamente usando Blender con su motor Cycles, generando imágenes HDR como referencia. Esto permitió que la red aprendiera a imitar los resultados de un motor profesional sin replicar su lógica interna.

El modelo fue entrenado en dos etapas: primero a una resolución de 256×256 con hasta 1.536 triángulos por escena, y luego a 512×512 con un máximo de 4.096 triángulos. El tamaño final del modelo alcanza los 205 millones de parámetros.

Resultados visuales que hablan por sí solos

RenderFormer no solo reproduce con precisión sombras, luces difusas y reflejos complejos, sino que también permite generar secuencias de video cuadro por cuadro. Esta capacidad de manejar el cambio de perspectiva y el dinamismo en escenas lo hace especialmente prometedor para animaciones y experiencias inmersivas.

En las pruebas presentadas por Microsoft Research, se pueden ver objetos cotidianos como teteras, manzanas o estructuras metálicas bajo diversas condiciones de iluminación. La red logra capturar la textura de los materiales, la intensidad de los reflejos y la interacción entre luces y superficies con una fidelidad sorprendente.

Retos a futuro y potencial más allá del renderizado

Aunque RenderFormer ha demostrado que una red neuronal puede asumir el rol completo del pipeline de renderizado, aún enfrenta desafíos importantes. Escalar su rendimiento a escenas más grandes y complejas, con materiales avanzados y geometrías detalladas, es una de las barreras técnicas que deberá superar.

Sin embargo, su arquitectura basada en transformers abre la puerta a integraciones con otras áreas de la inteligencia artificial, como generación de video, visión por computador o robótica. En este sentido, RenderFormer podría convertirse en una pieza clave para construir entornos virtuales inteligentes, donde los modelos no solo vean el mundo, sino que lo comprendan visualmente.

Con este trabajo, Microsoft marca un punto de inflexión en la forma en que concebimos el renderizado 3D: no como un proceso de simulación física, sino como una tarea de comprensión visual aprendida por una inteligencia artificial.

Posibles signos de vida pasada en Marte: la NASA redobla su apuesta científica

Una muestra de roca marciana, recolectada por el rover Perseverance, ha puesto a la NASA frente a uno de los momentos más esperados en la historia de la exploración espacial: la posibilidad tangible de que haya existido vida en Marte. Este descubrimiento se ha hecho en el cráter Jezero, una región que en tiempos remotos fue un lago con valles fluviales conectados. La roca, bautizada como «Cheyava Falls», contiene señales químicas que podrían ser una «biofirma», es decir, una huella dejada por procesos biológicos.