Una semana después del lanzamiento de Sora por OpenAI, Google DeepMind ha presentado Veo 2, un innovador modelo de generación de video que promete transformar la creación de contenido audiovisual a través de la inteligencia artificial. Veo 2 se destaca por su capacidad de producir videos de alta calidad, con resoluciones de hasta 1080p y duraciones que pueden superar el minuto, abarcando una amplia variedad de estilos visuales y cinematográficos.
Entre las características más notables de Veo 2 se incluye la habilidad de generar videos que no solo son visualmente impresionantes, sino que también comprenden diferentes tipos de tomas de cámara, como aquellas tomadas desde un dron, panorámicas y primeros planos. Además, este modelo mejora la replicación de las leyes físicas del mundo real y la expresión emocional de los personajes, lo que permite crear escenas más realistas y conmovedoras. Un ejemplo del potencial de Veo 2 es un plano en ángulo bajo que captura flamencos en un lago, resaltando la belleza y serenidad del entorno.
Al comparar Veo 2 con Sora de OpenAI, ambos modelos demuestran fortalezas distintas. Mientras Sora se centra en la narrativa creativa y la exploración de escenarios imaginativos, Veo 2 se especializa en el realismo y la precisión física, ofreciendo un mayor control sobre el proceso de generación de video.
Las pruebas realizadas por Google, utilizando un conjunto de datos específicos para la evaluación de videos, han posicionado a Veo 2 como superior a competidores como Sora Turbo en cuanto a la generación de clips. No obstante, Google también ha reconocido que subsisten limitaciones en la creación de videos realistas, especialmente en escenas complejas y en secuencias que requieren movimiento dinámico.
Para asegurar un uso adecuado y mantener la transparencia, la implementación inicial de Veo 2 estará restringida a aplicaciones seleccionadas, incluidas VideoFX, YouTube y Vertex AI, con planes de expansión hacia plataformas como YouTube Shorts en 2025. Todos los videos generados por esta inteligencia artificial contarán con una marca de agua invisible designada como SynthID.
Además del lanzamiento de Veo 2, DeepMind ha presentado una mejora de su modelo de generación de imágenes, denominado Imagen 3, que crea imágenes con colores más vibrantes, mejor composición y un nivel de detalle superior. Este modelo también se está implementando a nivel global. De manera complementaria, Google Labs ha introducido un nuevo experimento llamado «Whisk», que capitaliza las capacidades de generación visual de Imagen 3 y Gemini, permitiendo a los usuarios interactuar mediante imágenes, lo que subraya los avances significativos en la creación de contenido visual impulsado por inteligencia artificial.