La irrupción de los modelos de lenguaje como ChatGPT o Gemini ha transformado el mundo de la escritura académica. Herramientas antes impensables hoy están al alcance de cualquier investigador, permitiendo desde correcciones gramaticales hasta la generación de textos completos. Pero en medio de esta revolución silenciosa, un nuevo obstáculo ha surgido: los sistemas que intentan detectar si un texto fue escrito por una inteligencia artificial están mostrando sesgos contra autores que no son hablantes nativos de inglés.
El auge de los LLMs y su papel en la academia
En 2022, OpenAI lanzó ChatGPT, y poco después llegaron alternativas como Bard (hoy Gemini). Estas herramientas comenzaron a usarse para mejorar la redacción de artículos, resumir investigaciones o traducir ideas complejas a un inglés claro y fluido. Para investigadores de países donde el inglés no es lengua oficial, esto fue un cambio de paradigma: ya no dependían de costosos servicios de corrección profesional para publicar en revistas internacionales.
Sin embargo, la facilidad con la que se puede integrar contenido generado por IA generó debates éticos: ¿debe citarse el uso de estas herramientas? ¿Es válido usar textos generados por IA en trabajos científicos? La mayoría de revistas decidieron que la IA puede ser usada como asistente lingüístico, pero nunca debe figurar como autora.
El problema de los detectores de texto IA
Ante la posibilidad de que se publiquen trabajos redactados por completo por inteligencias artificiales, surgieron herramientas como GPTZero, DetectGPT o ZeroGPT, diseñadas para identificar si un texto fue generado por una máquina. Estas herramientas prometen proteger la integridad académica, pero una investigación publicada en PeerJ Computer Science ha demostrado que su uso puede tener consecuencias injustas para ciertos grupos de investigadores.
Un estudio revela el sesgo oculto
El estudio «The Accuracy-Bias Trade-Offs in AI Text Detection Tools and Their Impact on Fairness in Scholarly Publication» analizó cómo funcionan estos detectores con tres tipos de textos:
- Escritos puramente por humanos
- Generados por completo por IA
- Textos híbridos: escritos por humanos y editados por IA para mejorar claridad y estilo
Se analizaron 72 resúbenes académicos de distintas disciplinas (tecnología, ciencias sociales e investigaciones interdisciplinarias), con autores tanto nativos como no nativos del inglés.
Resultados preocupantes
Los detectores tuvieron buen desempeño al diferenciar textos 100% humanos de los completamente generados por IA. Pero los problemas empezaron con los textos híbridos. En esos casos, los detectores confundieron con mayor frecuencia la escritura mejorada por IA con texto 100% artificial, especialmente cuando provenía de autores no nativos.
Esto se traduce en tasas más altas de:
- Falsos positivos: textos humanos marcados erróneamente como generados por IA
- Sobre-detección: el sistema interpreta como artificial un texto híbrido donde hay participación humana real
Para un autor que usa la IA únicamente como apoyo lingüístico, esta situación puede ser devastadora: su trabajo puede ser rechazado o cuestionado injustamente.
Un sesgo que afecta a los más vulnerables
El inglés domina la comunicación académica, y quienes no lo dominan deben invertir tiempo y dinero para alcanzar el nivel esperado por revistas internacionales. Los LLMs aparecieron como una solución inclusiva. Pero si las herramientas de detección castigan el uso de IA en estos casos, se cae en una paradoja: se penaliza precisamente a quienes más necesitan esa ayuda.
Esto es comparable a pedir a alguien que construya una casa sin herramientas, y luego criticar el uso de un martillo por considerarlo «trampa». La realidad es que la mejora lingüística no implica falta de originalidad intelectual, pero los detectores actuales no distinguen entre ambos aspectos.
Disciplina también importa
Las ciencias sociales y las humanidades utilizan un lenguaje más interpretativo, sutil y culturalmente cargado. Los detectores, entrenados con textos más técnicos o directos, tienen más dificultades con este tipo de escritura. Esto aumenta el riesgo de errores, reforzando una brecha disciplinaria en el uso justo de las herramientas.
Una caja negra sin apelación
Otro problema es la opacidad de estos sistemas. Los detectores de IA no explican por qué consideran que un texto fue generado artificialmente. Funcionan como cajas negras: entregan un resultado, pero no permiten saber qué patrones o características motivaron esa decisión. Esto dificulta que un autor pueda defender su trabajo si es acusado injustamente.
Propuestas para un uso más justo y responsable
El estudio propone abandonar el enfoque punitivo y apostar por una cultura de transparencia, responsabilidad y educación sobre el uso de IA en la escritura. Algunas recomendaciones incluyen:
- Crear directrices claras que permitan el uso responsable de LLMs
- Fomentar la declaración voluntaria del uso de IA, sin estigmatizar
- Capacitar a editores y revisores para interpretar resultados con criterio humano
- Promover herramientas más transparentes y explicables
- Invertir en más investigación sobre los efectos de estos sesgos
Convivir con la IA sin perder la equidad
La inteligencia artificial seguirá avanzando. Y aunque las herramientas de detección también mejorarán, no debemos olvidar que la equidad debe estar en el centro. El objetivo no es eliminar la IA de la academia, sino garantizar que su uso no profundice desigualdades preexistentes.
La confianza, el contexto y la transparencia humana seguirán siendo fundamentales para construir un sistema académico justo. Los algoritmos pueden ayudar, pero la última palabra debe seguir siendo humana.