Gemini Robotics-ER 1.5: el nuevo cerebro para robots con razón y visión

Google ha presentado Gemini Robotics-ER 1.5, un modelo especializado en razonamiento incorporado para robots, ya disponible en vista previa para desarrolladores a través de Google AI Studio y la API de Gemini. Esta versión representa el primer modelo de la serie Gemini Robotics que se libera de forma abierta y busca convertirse en una capa de inteligencia avanzada capaz de dirigir a los robots con un entendimiento profundo del espacio, el tiempo y las acciones.

Pensado para tareas complejas que van mucho más allá de ejecutar movimientos mecánicos, este modelo puede resolver escenarios como clasificar residuos en contenedores de basura, reciclaje y compost. Para ello, debe comprender los objetos, buscar información local en Internet y planificar una serie de pasos para llevar a cabo la acción correctamente.

Qué lo hace diferente: capacidades nativas para robots

A diferencia de modelos de lenguaje generales, Gemini Robotics-ER 1.5 está ajustado especialmente para aplicaciones robóticas. Esto significa que su capacidad de entender el entorno visual y tomar decisiones sobre ese entorno está más desarrollada. Algunas de sus características más destacadas incluyen:

Razonamiento espacial rápido y preciso, con comprensión semántica de tamaños, pesos y funciones de los objetos. Esto le permite generar coordenadas precisas (como puntos en 2D) para interactuar con el mundo físico.

Ejecución de tareas de largo plazo, combinando planificación, detección de éxito y uso de herramientas externas como Google Search o funciones definidas por el usuario. Por ejemplo, reorganizar un escritorio según una imagen de referencia o ensamblar algo paso a paso.

Control de «presupuesto de pensamiento», un sistema que permite elegir entre respuestas rápidas o más profundas según la complejidad de la tarea. Esta función da flexibilidad a los desarrolladores para equilibrar latencia y exactitud.

Mejoras de seguridad, con filtros semánticos que reconocen planes peligrosos o imposibles, como exceder la carga que puede levantar un robot.

El modelo como cerebro de alto nivel

La función de Gemini Robotics-ER 1.5 es actuar como el «cerebro pensante» de un robot, mientras que otras herramientas controlan los aspectos motores. Interpreta instrucciones complejas en lenguaje natural y las traduce en acciones con ayuda de APIs, modelos de control o funciones externas. En vez de simplemente detectar objetos, puede razonar sobre lo que ve y decidir qué hacer al respecto.

Por ejemplo, si recibe la orden de «limpiar la mesa», el modelo puede dividirla en sub-tareas como «recoger los platos», «llevarlos al fregadero» o «botar los residuos», ejecutando cada paso mediante las herramientas disponibles.

Entendimiento visual detallado y sin alucinaciones

Una de las ventajas más notables de este modelo es su capacidad para ubicar objetos con precisión visual. Si se le muestra una cocina y se le pide que señale el «fregadero» o la «olla de arroz», el modelo responde con coordenadas en 2D, descartando objetos que no aparecen en la imagen. Esto evita errores comunes en otros modelos, como identificar elementos inexistentes (lo que se conoce como «alucinaciones»).

La información de puntos puede combinarse con sensores 3D para crear planes de movimiento precisos, cruciales para tareas como servir una taza de café o guardar utensilios en su sitio.

Comprensión temporal: qué pasó y cuándo

Más allá del espacio, el modelo también domina el tiempo. A través de análisis de video, puede descomponer una secuencia de acciones indicando qué ocurrió, en qué orden y durante cuánto tiempo. Por ejemplo, en una escena donde dos brazos robóticos colocan marcadores y bolígrafos en diferentes recipientes, el modelo puede describir cada acción con marcas de tiempo, lo que permite seguir la lógica de la tarea.

Este nivel de comprensión temporal es esencial para tareas de montaje o ensamblaje, donde el orden importa tanto como la acción en sí.

Razonamiento con «afordancias»: entender el uso de los objetos

Otra novedad es la capacidad de razonar sobre cómo se deben usar los objetos, lo que en robótica se conoce como «afordancias». Por ejemplo, el modelo puede identificar dónde colocar una taza para preparar café, cómo insertar una cápsula en la máquina y qué trayectorias seguir para cerrar la tapa. Esta habilidad es clave para tareas domésticas o industriales, donde el robot debe entender el «cómo» y el «dónde» de cada paso.

Con sólo una imagen y una instrucción, el modelo puede generar un plan visual paso a paso, combinando texto con puntos de acción para guiar al robot de forma precisa.

Pensamiento ajustable según la tarea

Uno de los aspectos más únicos de Gemini Robotics-ER 1.5 es el «presupuesto de pensamiento» ajustable. Este sistema permite definir cuánto tiempo debe invertir el modelo en razonar antes de responder. Para tareas simples, como señalar un objeto, puede responder casi instantáneamente. Pero para tareas complejas como planear una limpieza completa o ensamblar un mueble, se puede asignar un mayor número de «tokens de pensamiento» para mejorar la calidad del plan generado.

Este enfoque permite adaptar la respuesta según si la prioridad es la rapidez o la exactitud, algo que los desarrolladores pueden ajustar mediante configuraciones.

Seguridad: diseño responsable y restricciones físicas

Google ha reforzado la seguridad en este modelo con filtros que evitan generar planes que impliquen daño o violaciones físicas. Por ejemplo, si se le pide levantar un objeto demasiado pesado para un robot, el modelo puede negarse a ejecutar la acción. Estas salvaguardas están alineadas con métricas como el benchmark ASIMOV y ayudan a garantizar un uso más seguro.

Sin embargo, la compañía enfatiza que estos filtros no reemplazan las buenas prácticas de ingeniería robótica. Se recomienda aplicar un enfoque de «queso suizo», donde varias capas de protección (frenos de emergencia, sensores de colisión, evaluaciones de riesgo) trabajen en conjunto.

Disponible para desarrolladores

Gemini Robotics-ER 1.5 ya puede probarse en Google AI Studio, junto a documentación técnica y notebooks de ejemplo para quienes deseen integrarlo en sus propios sistemas. Es el primer paso de una estrategia más amplia de Google hacia una robótica guiada por inteligencia general, que también contempla modelos de acción y aprendizaje a través de diferentes entornos.

Este lanzamiento marca un avance hacia robots que no solo ven y actúan, sino que también piensan y deciden con mayor autonomía y seguridad.

wp_hectorsito