El mundo de la inteligencia artificial empresarial se ha volcado en los modelos open source por su aparente ventaja económica: menores costes por token y mayor control. Pero un estudio reciente de Nous Research pone sobre la mesa una verdad incómoda: estos modelos de «peso abierto» pueden estar consumiendo hasta 10 veces más recursos computacionales que sus homólogos cerrados para tareas simples.
Cuando hablamos de recursos computacionales, nos referimos principalmente a los tokens, las unidades básicas con las que los modelos procesan y generan texto. Aunque cada token cuesta menos en sistemas open source, si se usan muchos más para tareas sencillas, el coste total puede dispararse.
Qué descubrió el estudio de Nous Research
El análisis se realizó sobre 19 modelos de IA diferentes, evaluando su rendimiento en tres tipos de tareas: preguntas de conocimiento general, problemas matemáticos y acertijos lógicos. La métrica central fue la eficiencia de tokens, es decir, cuántos tokens utiliza un modelo para resolver una tarea determinada.
Las conclusiones fueron claras:
- Modelos open source consumen de 1.5 a 4 veces más tokens en promedio.
- En tareas simples como responder «¿Cuál es la capital de Australia?», algunos modelos abiertos llegaron a usar hasta 12 veces más tokens que los modelos cerrados más eficientes.
- Modelos con razonamiento encadenado (como los LRMs, o Large Reasoning Models) tienden a «pensar demasiado», gastando cientos de tokens para problemas que podrían resolverse con una sola palabra.
¿Por qué ocurre esta ineficiencia?
Los modelos abiertos, al priorizar un razonamiento profundo y exhaustivo, tienden a desarrollar cadenas de pensamiento más largas. Esto puede ser útil para problemas complejos, pero innecesario y costoso para tareas simples.
Por ejemplo, imagina que le preguntas a un asistente virtual: «¿Dónde está París?». Un modelo cerrado responderá simplemente: «En Francia». Pero uno open source podría primero considerar la historia geopolítica de Europa, debatir sobre otras ciudades llamadas París en el mundo y luego finalmente llegar a la respuesta. El resultado: muchos más tokens, más procesamiento, más coste.
¿Cuáles modelos se destacan por su eficiencia?
El estudio identificó importantes diferencias entre proveedores:
- OpenAI se posiciona como líder en eficiencia. Modelos como o4-mini y su nueva versión open source gpt-oss mostraron un uso muy optimizado de tokens, especialmente en matemáticas.
- Nvidia, con su modelo llama-3.3-nemotron-super-49b-v1, fue el más eficiente entre los open source.
- Algunos modelos recientes, como los de Magistral, fueron señalados como outliers por su alto consumo de tokens.
En tareas matemáticas y lógicas, los modelos abiertos duplicaron el consumo de tokens frente a los cerrados. Pero en preguntas de conocimiento general, la diferencia fue abismal.
Implicaciones prácticas para empresas
Este hallazgo es particularmente relevante para las empresas que integran IA en sus procesos. Muchas toman decisiones basadas en el coste por token y benchmarks de precisión, pero ignoran el coste total de inferencia, es decir, cuántos tokens se utilizan realmente en cada tarea.
Un modelo cerrado puede parecer más caro por token, pero si resuelve tareas con menos tokens, puede resultar más barato en la práctica. Como advierte Nous Research: «El mejor rendimiento en eficiencia de tokens de los modelos cerrados compensa su precio más alto por API».
Además, los modelos cerrados parecen estar optimizados deliberadamente para usar menos tokens. Las últimas versiones muestran mejoras en eficiencia, mientras que algunos open source han incrementado su uso de tokens en busca de razonamientos más completos.
Cómo midieron la eficiencia los investigadores
Evaluar la eficiencia no fue sencillo. Muchos modelos cerrados no muestran sus procesos de razonamiento completos para proteger su tecnología. En su lugar, utilizan resúmenes comprimidos creados por modelos más pequeños.
Ante esto, los investigadores usaron como métrica los tokens de completado, es decir, los tokens que se generan en la respuesta. Aunque no revela todo el proceso interno, es un buen indicador del esfuerzo computacional.
También se cuidaron de evitar respuestas memorizadas: modificaron variables en problemas matemáticos conocidos para evaluar la capacidad real de razonamiento.
Hacia una IA más eficiente
El estudio propone que la eficiencia de tokens debe considerarse al mismo nivel que la precisión al desarrollar futuros modelos. No se trata solo de responder bien, sino de hacerlo de forma inteligente y económica.
La reciente salida del modelo open source gpt-oss de OpenAI es un ejemplo de que se puede lograr eficiencia incluso en el terreno abierto. Este modelo no solo ofrece cadenas de pensamiento accesibles, sino que mantiene un uso optimizado de tokens.
Cuando cada token cuesta dinero y energía, la batalla de la IA no se ganará solamente con cerebros más potentes, sino con cerebros más ahorradores. Para las empresas, esto puede significar la diferencia entre escalar con sostenibilidad o naufragar en los costes de infraestructura.