
Desarrollado por los creadores de Stable Diffusion, Virtual Camera es un salto evolutivo en animación automatizada. Las claves de su funcionamiento y quiénes pueden usarlo.
l mundillo de la inteligencia artificial generativa exhibe un ritmo de actualización vertiginoso. Un nuevo modelo que convierte imágenes 2D y videos 3D viene a confirmarlo. La primicia lleva por nombre Stable Virtual Camera, cortesía de los creadores de Stable Difussion, uno de los generadores de imágenes más reconocidos junto a DALL-E de OpenAI y a Midjourney.
La propuesta es prometedora. Así la resume el desarrollador: “Este modelo transforma imágenes de dos dimensiones en videos inmersivos con perspectiva realista, sin reconstrucciones complejas”. En la práctica, el usuario comparte el contenido estático y la herramienta hace su magia, al generar clips con movimiento que se destacan por tener profundidad.
Stable Virtual Camera aparece en escena para competir con generadores que ya iniciaron su recorrido, también centrados en el video. Uno de los emblemas en este terreno es Sora, que los creadores de ChatGPT lanzaron a fines del año pasado. El otro es Veo de Google. En ambos casos, el uso más conocido gira en torno a esta mecánica: hay que escribir una indicación por escrito —prompt, en la jerga de la IA— para que el modelo cree el video sobre la base de ese pedido.
¿Cómo funciona Stable Virtual Camera?
El modelo recién presentado permite un control dinámico de la cámara, con trayectorias predefinidas y un alto grado de personalización, sin grandes requisitos para el procesamiento de las escenas, explica Stability AI, la empresa detrás de este ingenio.
La clave es el empleo de cámaras virtuales que permiten una animación 3D fluida, partiendo de imágenes en dos dimensiones, según se explica en una publicación oficial en la que, además, agregan algunos ejemplos de los resultados obtenidos. Una de las principales ventajas de este sistema es su capacidad para crear contenido con movimiento y profundidad a partir de una sola imagen de entrada, con un máximo de 32. Otros modelos de video en tres dimensiones precisan un paquete de datos más extenso.
Stable Virtual Camera también se destaca por mantener la consistencia de la animación 3D, incluso en las secuencias de video extensas. En este punto, cabe señalar que puede generar clips de hasta 1000 fotogramas que además son compatibles con diversos formatos o, más técnicamente, con relaciones de aspecto diversas como cuadrado (1:1), horizontal (16:9) y vertical (9:16).
¿Qué es el control de cámara dinámico?
La denominación del modelo hace hincapié en esta capacidad, que se manifiesta en una serie de funciones del modelo. Entre las opciones disponibles aparecen la rotación en 360 grados, que genera un efecto que rodea a un punto focal; panorámicas con movimientos en diversas direcciones; una trayectoria de la cámara en espiral que enfatiza la profundidad de las escenas; además de acercamientos y alejamientos de tipo cinematográfico; entre otras variantes que, por cierto, pueden ser combinadas en el mismo video.
Las limitaciones de Stable Virtual Camera
El modelo “puede producir resultados de menor calidad en ciertos escenarios”, reconocen desde Stability AI. En concreto, presenta algunas taras cuando debe trabajar con personas, animales o texturas dinámicas como el agua. “Además, las escenas muy ambiguas, las trayectorias de cámara complejas que se cruzan con objetos o superficies, y los elementos con formas irregulares, pueden causar parpadeo”, agregan.
Este tipo de limitaciones no resultan sorprendentes. Diversos generadores de imágenes y videos potenciados con inteligencia artificial han tropezado al producir ciertos contenidos. Por ejemplo, hemos visto curiosas fallas cuando intentan recrear manos humanas. Los desarrolladores de estos modelos “han captado la idea general de una mano: tiene palma, dedos y uñas; pero ninguno comprende realmente qué es la mano completa”, explicó al respecto un especialista en diálogo con BBC. “Si solo intentas obtener una imagen muy genérica de esa extremidad, esto no sería un gran problema. Los inconvenientes surgen en cuanto le das contexto al modelo. Si no puede comprender la naturaleza 3D de una mano o el contexto de una situación, tendrá dificultades para recrearla con precisión”, agregó.
¿Quiénes pueden usar el flamante generador?
La novedad anunciada por los creadores de Stable Diffusion inicia su recorrido en el marco de una prueba que, buena noticia para los curiosos, se ofrece en forma abierta bajo licencia no comercial. En criollo: cualquiera que lo desee puede echar mano al modelo, sin pagar un centavo, con los detalles del proyecto disponible en GitHub y acceso desde Hugging Face.
Lo dicho: esta primicia en el vertiginoso ámbito de la IA ensancha la competencia, en este caso en el ámbito de la generación automatizada de videos. Además de los mencionados Sora y Veo, ese sector ha tenido movimientos, recientemente. La compañía de inteligencia artificial propiedad de Elon Musk, xAI, acaba de comprar a Hotshot, un especialista en modelos para la creación de clips con movimiento. Se espera que esa adquisición potencie al chatbot Grok, de esa empresa.