Cuando se habla del uso de inteligencia artificial en el desarrollo de software, lo primero que se imagina es una revolución absoluta: robots escribiendo código solos, equipos reducidos a la mitad o aplicaciones que se crean con un clic. Sin embargo, la realidad es más matizada, y las empresas tecnológicas que ya están usando estas herramientas lo saben bien.

Hoy, alrededor del 85% de los ingenieros de software utilizan herramientas de codificación con IA en su trabajo diario, según datos del informe de herramientas 2025 de The Pragmatic Engineer. Pero adoptar una nueva tecnología no implica automáticamente productividad garantizada. Medir el valor que aporta una herramienta de IA es un reto constante para las compañías.

Más que productividad: eficiencia real

Un asistente de código con IA, como Copilot de GitHub, no solo aporta velocidad al escribir. Lo que muchas veces ofrece es una reducción de la carga cognitiva: menos búsquedas en Stack Overflow, menos dudas sobre sintaxis y más foco en el diseño del sistema.

Imagina que estás construyendo un mueble de IKEA. La IA no te armará el mueble, pero sí te pasará la herramienta correcta justo cuando la necesitas. Así es como muchos desarrolladores describen el valor de estas herramientas: asistentes contextuales, no reemplazos.

Cómo se mide ese impacto en la práctica

El CTO de DX, Laura Tacho, colaboró con The Pragmatic Engineer para analizar cómo 18 empresas tecnológicas, incluyendo Google, GitHub, Dropbox, Atlassian y Monzo, están midiendo el impacto real de la IA. Todas coinciden en que no basta con métricas como líneas de código generadas o tasa de aceptación de sugerencias. Esas medidas se quedan cortas y no reflejan calidad, innovación ni mantenibilidad.

Las compañías están mezclando métricas tradicionales de ingeniería con nuevas específicas para IA. Algunas de las más utilizadas son:

  • PR Throughput: cuántas pull requests se completan por semana.
  • Change Failure Rate: cuántos cambios generan errores en producción.
  • Tiempo ahorrado por ingeniero.
  • Satisfacción del desarrollador con las herramientas de IA (CSAT).
  • Número de usuarios activos semanales o diarios.

Dropbox, por ejemplo, ha logrado un 90% de adopción entre sus ingenieros, con un aumento del 20% en PRs semanales y una reducción significativa en errores gracias al uso constante de IA.

Romper la barrera del coste

Usar IA a gran escala no es barato. Cada sugerencia consume tokens, una unidad que representa fragmentos de texto procesados por el modelo. Empresas como Monzo y Shopify han detectado que ciertos usos, como revisiones automáticas de código con IA, consumen demasiados tokens sin ofrecer resultados útiles. Monzo optó por desactivar algunas funciones por defecto y hacerlas optativas, después de observar que no eran coste-eficientes.

Como en BigQuery cuando se estima cuántos datos escanearás antes de ejecutar una consulta, las organizaciones deberían poder ver estimaciones del costo de cada uso de IA. Esta conciencia aún no está generalizada.

Diferencias según el nivel de adopción

Muchas empresas están analizando el rendimiento según el grado de uso de IA. Comparan grupos de desarrolladores que usan IA frecuentemente con quienes no lo hacen, o analizan cohortes antes y después de implementar las herramientas.

Webflow descubrió que los desarrolladores con más de tres años en la empresa eran quienes más se beneficiaban de las herramientas de IA, logrando también un 20% más en throughput.

Para que estos análisis funcionen, se necesitan buenos datos de base. Muchas empresas aún no tienen una línea de referencia clara sobre su productividad pre-IA, lo que dificulta hacer comparaciones.

Medir sin sesgos: velocidad vs calidad

Uno de los riesgos más repetidos por los líderes técnicos es generar deuda técnica al priorizar velocidad sobre calidad. Por eso, muchas compañías cruzan métricas de velocidad (como PR throughput) con métricas de calidad (como la tasa de fallos).

Se están empezando a usar métricas más sofisticadas como:

  • Confianza en los cambios (qué tan seguros se sienten los desarrolladores al implementar).
  • Mantenibilidad del código.
  • Experiencia del desarrollador, que evalúa toda la cadena desde planificación hasta soporte en producción.

CircleCI, por ejemplo, rastrea la satisfacción de los desarrolladores para detectar si el uso de IA genera fricción a corto plazo que pueda erosionar la cultura técnica a largo plazo.

Métricas únicas y enfoques originales

Microsoft ha creado la métrica de “Bad Developer Day” (BDD) para evaluar si la IA reduce los días frustrantes para los desarrolladores. Si un día con muchas reuniones, tareas repetitivas o incidentes se compensa con tiempo real de programación, se considera que la IA ayudó.

Glassdoor mide si los desarrolladores están experimentando más con IA, siguiendo la cantidad de pruebas A/B mensuales como indicio de innovación.

También surgen métricas como “capacidad utilizada”, que evalúan si el potencial de una herramienta está siendo realmente aprovechado. Esto evita seguir pagando por algo que ya alcanzó su techo de utilidad.

El desafío de medir en todo el ciclo de desarrollo

Hoy, la mayoría de las mediciones se centran en la escritura de código. Pero se está reconociendo que muchas tareas clave —como planificación, análisis de bugs, o incluso gestión de tickets en Jira— también pueden beneficiarse de la IA.

Aún hay poca medición fuera del IDE o terminal. Esto cambiará con la expansión de herramientas más transversales y agentes autónomos.

Qué pasa cuando los datos no son suficientes

Monzo fue muy transparente en sus limitaciones: no puede acceder a buena parte de la telemetría de uso de herramientas como GitHub Copilot o Claude, lo que impide tener una visión completa del retorno de inversión. El equipo también ha identificado que usar IA para migraciones o tareas repetitivas tiene un impacto positivo claro: en algunos casos, la IA reduce en un 60% el tiempo necesario para completar estas tareas.

Sin embargo, reconocen que medir con precisión este impacto es difícil. Instalar agentes invasivos en los portátiles no es una opción ética ni deseada, por lo que recurren a encuestas, entrevistas y comparación subjetiva para evaluar la utilidad percibida.

Cómo empezar a medir de forma eficaz

Laura Tacho propone el AI Measurement Framework, una metodología basada en datos de más de 400 compañías. Este marco recomienda combinar:

  • Datos cuantitativos del sistema (uso de herramientas, tokens, velocidad de entrega).
  • Datos cualitativos de encuestas (satisfacción, mantenibilidad, confianza).
  • Análisis por cohortes y niveles de adopción.

La clave es mantener un enfoque experimental. Ninguna métrica aislada lo explica todo. Es necesario observar patrones a lo largo del tiempo y evitar decisiones basadas solo en titulares o intuiciones.

Medir el impacto de la IA en el desarrollo es un proceso en evolución. Pero cuanto antes se empiece, más clara será la imagen que se podrá construir para guiar decisiones estratégicas.

 

Google abre la puerta a compartir tus asistentes Gemini personalizados

Google ha dado un paso más en la evolución de su ecosistema de inteligencia artificial al permitir que los usuarios compartan sus Gems, los asistentes personalizados de Gemini, de una forma tan sencilla como compartir un archivo en Google Drive. Esta novedad no solo mejora la experiencia de uso para quienes ya exploran la personalización avanzada de la IA, sino que también democratiza el acceso a estos recursos, haciéndolos más útiles y accesibles para un público más amplio.