La llegada de GPT-5 ha generado un amplio debate en la comunidad tecnológica. Prometido como un modelo con inteligencia «nivel doctorado», ha sido puesto a prueba desde su lanzamiento por usuarios curiosos, expertos en inteligencia artificial y hasta por sus propios creadores. Lejos de cumplir con las altas expectativas, el modelo ha mostrado una tendencia preocupante: proporcionar información falsa con total seguridad.
El problema, conocido técnicamente como alucinaciones (hallucinations), se refiere a las ocasiones en que un modelo de lenguaje genera respuestas incorrectas, pero lo hace con un tono tan convincente que puede engañar incluso a usuarios experimentados. Y aunque este comportamiento no es nuevo en los LLMs (Large Language Models), sorprende que GPT-5 mantenga e incluso agrave este fenómeno en ciertas circunstancias.
Errores garrafales: del PIB de Polonia a un «posse» de vaqueros
Entre los ejemplos más comentados está el de un usuario de Reddit que consultó el producto interior bruto (PIB) de varios países. Para Polonia, por ejemplo, GPT-5 respondió que su PIB superaba los 2 billones de dólares, cuando en realidad se sitúa alrededor de los 979.000 millones, según el Fondo Monetario Internacional. La cifra proporcionada por la IA duplicaba la real, una distorsión que podría deberse a una confusión con declaraciones políticas recientes que mencionaban logros económicos del país.
Este tipo de error no solo desinforma, sino que también plantea dudas sobre cuántas respuestas falsas podrían pasar desapercibidas por parte de los usuarios que no revisan los datos. Como señaló el propio usuario: «¿Cuántas veces no verifico y simplemente acepto la información errónea como verdadera?».
Otro caso peculiar fue presentado por Gary Smith, del Walter Bradley Center for Artificial Intelligence. Al pedirle a GPT-5 una ilustración de un zarigüeya con partes del cuerpo etiquetadas, el modelo identificó bien los nombres, pero los ubicó de forma absurda: una pata como nariz, la cola como pie trasero y otras incongruencias por el estilo. El experimento se repitió con un error tipográfico, escribiendo «posse» en vez de «possum». En lugar de detectar la equivocación, la IA generó una imagen de un grupo de vaqueros armados, con partes del cuerpo etiquetadas de forma confusa.
Estos fallos ilustran una verdad incómoda: GPT-5 no comprende realmente el mundo, sino que reproduce patrones textuales con base en probabilidades. Cuando las instrucciones se desvían ligeramente del entrenamiento, el modelo puede generar respuestas incoherentes sin advertir al usuario de su incertidumbre.
El origen del problema: incentivos y métodos de evaluación
OpenAI ha reconocido en una publicación reciente que las alucinaciones persisten debido a los incentivos mal alineados durante la evaluación de los modelos. En su análisis, afirman que la mayoría de los métodos actuales premian las respuestas completas y confiadas, incluso si no son correctas, en lugar de valorar la precisión o la capacidad del modelo para admitir que no sabe algo.
Esto se traduce en una IA que prefiere adivinar antes que declarar ignorancia. Mientras algunos competidores, como Claude de Anthropic, están entrenados para decir «no sé» cuando corresponde, GPT-5 aún tiende a arriesgar una respuesta, lo que puede ser problemático en temas sensibles o técnicos.
Expectativas infladas y realidades incómodas
Uno de los aspectos que ha generado más críticas es la promesa de que GPT-5 tiene un nivel de inteligencia equiparable al de un doctorado. Aunque en ciertas tareas específicas puede ofrecer resultados sobresalientes, no posee comprensión contextual profunda ni juicio crítico, elementos esenciales en la formación académica avanzada.
La percepción de «inteligencia PhD» puede deberse a su habilidad para generar textos complejos y coherentes, pero no implica que el modelo entienda lo que está diciendo. En muchos casos, su conocimiento se basa en repeticiones estilísticas y patrones lingüísticos, no en hechos verificables o lógica formal.
Como ejemplo, podríamos imaginar a un estudiante que recita un discurso aprendido de memoria. Aunque las palabras puedan sonar sofisticadas, si no entiende lo que está diciendo, sus respuestas serán vulnerables al error cuando se le cambie ligeramente el contexto o se le haga una pregunta inesperada.
Implicaciones para el uso cotidiano de la inteligencia artificial
Estos errores no son menores cuando se trata de herramientas utilizadas por millones de personas en contextos tan diversos como la educación, la medicina, las finanzas o el periodismo. Si GPT-5 puede ofrecer datos incorrectos sobre economía o generar ilustraciones incoherentes, también podría inducir a error en diagnósticos, consejos legales o decisiones empresariales si no se verifica la información.
La moraleja parece clara: los modelos de lenguaje no sustituyen la investigación humana. Son asistentes poderosos, pero deben ser utilizados con criterio. Si confiamos en ellos sin cuestionar, corremos el riesgo de tomar decisiones con base en premisas erróneas.
Tal como si usáramos una calculadora que de vez en cuando se equivoca, la solución no es desecharla, sino entender cómo y cuándo puede fallar, y ajustar nuestro uso en consecuencia.
Rumbo a GPT-6: ¿mejorará o repetirá los errores?
Con los reflectores ya puestos en el futuro GPT-6, OpenAI tiene el desafío de resolver no solo los errores técnicos, sino también la brecha entre las promesas comerciales y las capacidades reales del modelo. Transparencia, mejores métodos de evaluación y entrenamiento orientado a la cautela podrían ser claves para evitar que el siguiente modelo perpetúe los problemas actuales.
Mientras tanto, el mejor consejo para los usuarios es el mismo que se aplica a cualquier fuente de información: verificar, contrastar y mantener un sano escepticismo. Al fin y al cabo, incluso una inteligencia artificial puede sonreír mientras dice algo totalmente falso.