Google acaba de incorporar una mejora significativa en su asistente de inteligencia artificial Gemini: la posibilidad de subir archivos de audio para analizarlos, transcribirlos o resumir su contenido. Esta función era una de las más solicitadas por la comunidad desde que se habilitó la carga de archivos en la plataforma, y ahora, tras una actualización silenciosa, finalmente está disponible en Android, iOS y también en la versión web.

Josh Woodward, vicepresidente de Google Labs y responsable de Gemini, confirmó la noticia a través de su cuenta en X (antes Twitter), calificando esta mejora como la “solicitud número uno” de los usuarios. Y no es para menos. Desde hace meses, Gemini podía procesar imágenes, documentos PDF, e incluso videos, pero la ausencia del audio se sentía como una omisión extraña, especialmente en un mundo donde las notas de voz, los podcasts y los mensajes grabados se han vuelto parte esencial de la vida digital cotidiana.

Cómo funciona la carga de audio en Gemini

Para utilizar esta nueva opción, los usuarios solo deben acceder al botón de “Subir archivos” dentro de la conversación con Gemini, y seleccionar archivos de audio en formatos comunes como MP3 o WAV. Una vez cargado el archivo, la IA puede transcribirlo, resumirlo, identificar temas principales o responder preguntas sobre su contenido, dependiendo del contexto.

Hay, sin embargo, algunas diferencias entre los niveles de suscripción. Los usuarios del plan gratuito pueden subir hasta 10 archivos de audio por sesión, pero la duración total combinada no puede superar los 10 minutos. Es decir, si subes dos clips de cinco minutos cada uno, ya estarías alcanzando el límite.

Para quienes están suscritos a Gemini Advanced, disponible a través de los planes AI Pro o AI Ultra, la situación cambia drásticamente. En ese caso, se pueden subir hasta tres horas de contenido de audio por sesión, lo que abre muchas más posibilidades, especialmente en contextos profesionales o educativos.

¿Qué se puede hacer con los audios en Gemini?

Con esta nueva capacidad, Gemini se convierte en una herramienta útil para tareas como:

  • Transcripción de entrevistas o reuniones.
  • Análisis de fragmentos de podcasts.
  • Comprensión de conferencias o clases grabadas.
  • Elaboración de resúmenes de notas de voz personales.

Imagina, por ejemplo, que grabaste una charla importante en la universidad o una reunión con tu equipo. Con solo subir ese archivo a Gemini, podrías obtener un resumen claro de los puntos tratados o incluso extraer citas textuales relevantes. Este tipo de función ahorra tiempo, mejora la productividad y puede marcar la diferencia en el día a día.

Comparativa con otras plataformas

La incorporación de esta funcionalidad también coloca a Gemini en una posición más competitiva frente a ChatGPT de OpenAI, que ya ofrece desde hace tiempo la posibilidad de subir audios y obtener transcripciones. La gran diferencia hasta ahora era que ChatGPT había integrado esta opción sin tantas restricciones temporales en su versión gratuita. La estrategia de Google parece más orientada a incentivar la suscripción a los planes avanzados, ofreciendo límites más generosos en esos niveles.

Sin embargo, para usuarios ocasionales, 10 minutos de audio pueden ser suficientes para tareas puntuales como analizar una nota de voz o entender un fragmento específico de un podcast. Para quienes necesitan más, la inversión en un plan de pago puede justificarse por la cantidad de horas que se pueden gestionar.

Ventajas frente al procesamiento de video

Otro punto interesante es que, comparado con el procesamiento de videos, el soporte de audio en Gemini resulta más generoso en términos de duración. Mientras los videos están limitados a cinco minutos para usuarios gratuitos y una hora para suscriptores, el audio duplica esa capacidad gratuita y triplica la de los planes de pago. Esto tiene lógica si consideramos que los archivos de audio, al no tener imagen, consumen menos recursos de procesamiento y ancho de banda.

Además, muchas veces el contenido relevante se encuentra más en lo que se dice que en lo que se muestra, por lo que poder trabajar con el sonido directamente representa una ventaja en términos de eficiencia.

¿Qué implica esta mejora para el futuro de Gemini?

Esta actualización es un paso más en la evolución de Gemini hacia una IA más completa y versátil. Al integrar el procesamiento de audio, se cierra un círculo importante en la interpretación de contenidos multimodales. Ya no solo se trata de leer documentos o ver imágenes, sino también de escuchar, entender y responder a lo que se dice.

Esta capacidad allana el camino para futuras funciones más avanzadas, como asistentes que puedan participar activamente en la toma de notas durante llamadas o incluso generar resúmenes en tiempo real de grabaciones en curso. Aunque por ahora la funcionalidad se limita a la carga de archivos, el potencial es enorme.

Para quienes usan herramientas de productividad basadas en IA, la llegada del soporte de audio en Gemini representa una mejora práctica y bienvenida. Y para Google, es una jugada estratégica para atraer más usuarios a sus servicios premium, al tiempo que reduce la distancia con sus competidores más directos.

La Tierra como nunca antes: Proyecto Orbion y el salto hacia el mapeo 3D en tiempo real

Durante décadas, el GPS ha sido la brújula invisible que guía desde nuestros coches hasta sistemas complejos de agricultura y logística. Pero este sistema, aunque indispensable, ya muestra señales de envejecimiento. El mundo actual, dinámico y altamente interconectado, necesita más que coordenadas estáticas. Aquí entra en escena el Proyecto Orbion, una ambiciosa iniciativa tecnológica que propone algo más profundo: construir un «gemelo digital» de la Tierra, capaz de actualizarse en tiempo real y reflejar con precisión los cambios que suceden en el mundo físico.