Durante la conferencia anual para desarrolladores Google I/O de mayo de 2026, la compañía de Mountain View ha dado un salto cualitativo en la carrera por la inteligencia artificial general (AGI). El gran protagonista del evento no ha sido otro que Gemini Omni, un modelo nativo «any-to-any» (de cualquier entrada a cualquier salida) que fusiona la capacidad de razonamiento del ecosistema Gemini con una potencia creativa audiovisual sin precedentes en la industria.
A diferencia de modelos anteriores como Veo, enfocados únicamente en la conversión de texto a vídeo, Omni ha sido diseñado desde cero como un modelo verdaderamente multimodal. Esto significa que no opera encadenando sistemas especializados de audio, texto o imagen, sino que asimila todas estas variables simultáneamente en un único proceso para generar contenidos hiperrealistas.
Características principales de Gemini Omni
La primera versión en desplegarse, bautizada como Gemini Omni Flash, se centra principalmente en la creación y manipulación de vídeo, y trae consigo funciones que prometen cambiar el flujo de trabajo de creadores y profesionales.
- Versatilidad de entrada total: Un usuario puede proporcionar a Omni una mezcla de texto descriptivo, una imagen de referencia, un clip de audio y un pequeño fragmento de vídeo dentro de un único prompt (instrucción) para generar una escena completamente nueva.
- Edición conversacional: Es quizá su avance más disruptivo. En lugar de utilizar complejas líneas de tiempo y herramientas de montaje tradicionales, el usuario interactúa con Omni mediante una conversación natural. Se le puede pedir que reemplace el fondo de una grabación existente, cambie el ángulo de cámara, modifique el estilo visual o altere un elemento específico de la escena, manteniendo la coherencia física y narrativa a lo largo de las distintas interacciones.
- Física avanzada y realismo: Gracias al conocimiento del mundo real heredado de los modelos Gemini de lenguaje y razonamiento, Omni es capaz de aplicar leyes físicas precisas a sus generaciones, evitando las clásicas deformaciones o movimientos ilógicos comunes en los primeros vídeos creados con IA.
Seguridad y marca de agua
Para responder a las crecientes preocupaciones sobre la desinformación y los deepfakes, Google ha integrado de serie su tecnología SynthID en este nuevo modelo. Absolutamente todos los vídeos creados o modificados con Gemini Omni llevarán incrustada una marca de agua digital imperceptible para el ojo humano, permitiendo identificar de forma inequívoca el contenido generado sintéticamente, apoyándose además en el protocolo de credenciales C2PA.
Disponibilidad y planes de futuro
El lanzamiento de este ecosistema se ha diseñado de forma escalonada. Gemini Omni Flash ya está disponible para los usuarios de Estados Unidos suscritos a los planes de pago más altos de la plataforma (Google AI Plus, Pro y el recién anunciado Ultra) a través de la propia aplicación de Gemini y la suite de edición Google Flow.
Sin embargo, para fomentar su adopción masiva, Google ha confirmado que Omni se integrará de forma gratuita en la creación de Shorts dentro de la aplicación móvil de YouTube en los próximos días.
El sector corporativo y los desarrolladores de software tendrán que esperar «unas semanas» para poder acceder al modelo a través de las API de Vertex AI. Además, Demis Hassabis, director ejecutivo de Google DeepMind, adelantó que la compañía ya está trabajando en Gemini Omni Pro, una variante aún más robusta que se presentará en un futuro próximo y que expandirá la capacidad del modelo para generar otros tipos de salidas complejas más allá del vídeo.

