Tech

Sora, el motor de video de OpenAI

Sora o el futuro de OpenAI

Entras a X (u otra red social) y de pronto te topas con uno de los muchos videos de gatos naranjas que circulan en internet. En esta ocasión, el minino molesta a su dueña, quien está dormida en su cama, para que le haga caso y le de algo de desayunar.

Al verlo uno no nota algo raro. Sin embargo, todo cambia cuando te enteras que dicho clip fue hecho con Inteligencia Artificial (IA) y a través de un texto que alguien escribió en la nueva plataforma de OpenAI.

this could be the "holy shit" moment of AI. OpenAI has just announced Sora, its text-to-video AI model. This video isn't real, it's based on a prompt of "a cat waking up its sleeping owner demanding breakfast…" 🤯 https://t.co/xKy3iQBKwT pic.twitter.com/HPm2p1jbgo
— Tom Warren (@tomwarren) February 15, 2024

El pasado 15 de febrero la empresa de investigación y despliegue de inteligencia artificial presentó ‘Sora’, un nuevo modelo de IA que es capaz de crear videoclips de un minuto de duración, únicamente usando comandos de texto o una imagen de referencia.

¿Eso qué quiere decir? Que ‘Sora’ es capaz de crear escenas complejas con lo que uno le dicte. Y es que una de las novedades de este modelo es que le da vida a personajes, crea tipos específicos de movimiento, y es precisa con los detalles y el fondo donde se sitúa la historia.

En uno de los ejemplos que OpenAI mostró en redes sociales, la plataforma pidió a ‘Sora’ que le creara un video a partir de este comando:

“La hermosa y nevada ciudad de Tokio está muy animada. La cámara se mueve por las bulliciosas calles de la ciudad, siguiendo a varias personas disfrutando del hermoso clima nevado y comprando en los puestos cercanos. Preciosos pétalos de sakura vuelan con el viento junto con los copos de nieve”.

¿El resultado? Vemos el clip de una pareja que camina tomada de la mano en Tokio. En el recorrido aparecen todos los detalles que se pidieron a ‘Sora’, tales como los pétalos de sakura y a otros personajes/personas que caminan por el lugar.

En otro video, por ejemplo, OpenAI hace otro video de corta duración con el siguiente comando: “Una mujer elegante camina por una calle de Tokio llena de luces de neón cálidas y luminosas y carteles animados de la ciudad. Lleva una chaqueta de cuero negra, un vestido largo rojo, botas negras y un bolso negro.

OpenAI pide que en el video la protagonista también use gafas de sol y labial rojo en los labios: “Ella camina con confianza y casualmente la calle está húmeda y reflectante, creando un efecto espejo de las luces de colores. Muchos peatones caminan”, dicta el comando que da como resultado este video:

Prompt: “Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. the art style is 3d and realistic, with a focus on lighting and texture. the mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with… pic.twitter.com/aLMgJPI0y6
— OpenAI (@OpenAI) February 15, 2024

A primera vista es increíble lo realistas que se ven las imágenes creadas con esta nueva herramienta de IA. Sin embargo, en el segundo video (el de la chica con lentes de sol) basta con poner un poco de atención a los detalles para ver que en el segundo 16 sus piernas cambian de dirección.

Justamente es esa la razón por la que ‘Sora’ aún no está disponible al público en general. OpenAI indicó que el modelo tiene algunas deficiencias, pues aunque tiene un amplio conocimiento del lenguaje (lo cual le permite generar imágenes a partir de texto), no es preciso en algunas cosas.

Por ejemplo, OpenAI menciona que si a ‘Sora’ se le pide que haga un video sobre una persona que le da una mordida a una galleta, lo hará. La cosa es que la galleta que aparece en el video puede que no tenga la marca de la mordida.

“El modelo también puede confundir los detalles espaciales de un mensaje, por ejemplo, mezclando izquierda y derecha”, menciona la plataforma. “Y puede tener dificultades con descripciones precisas de eventos que tienen lugar a lo largo del tiempo, como seguir una trayectoria de cámara específica”, detalla.

OpenAI indica que por ahora ‘Sora’ está disponible para algunos miembros de su equipo que ya evalúan áreas críticas en busca de daños o riesgos.

“También estamos otorgando acceso a una serie de artistas visuales, diseñadores y cineastas para obtener comentarios sobre cómo hacer avanzar el modelo para que sea más útil para los profesionales creativos”, mencionó la plataforma.

Aunque para muchos esto es una muestra de lo rápido que avanza y se perfecciona el uso de la IA, a otros les causa preocupación el hecho de que esta bien podría ser una herramienta para que en internet se armen más contenidos ‘Deepfake’.

Pero al parecer OpenAI ya es consciente de ello. En su blog, la empresa indicó que tomarán varias medidas de seguridad importantes antes de que ‘Sora’ esté disponible al público, como por ejemplo el desarrollo de herramientas que indiquen cuando un video fue creado con ‘Sora’.

Al igual que con otros productos de OpenAI, como DALL·E 3 (que genera imágenes a partir de texto), OpenAI verificará y rechazará las solicitudes de videos que contengan violencia extrema, contenido sexual, imágenes de odio, imágenes de celebridades o la IP de otros.

“También hemos desarrollado clasificadores de imágenes sólidos que se utilizan para revisar los fotogramas de cada video generado para ayudar a garantizar que cumpla con nuestras políticas de uso, antes de mostrarlo al usuario”, aseguró la plataforma.

La compañía de IA asegura que en el proceso involucrarán a formuladores de políticas, educadores y artistas de todo el mundo para “comprender sus preocupaciones e identificar casos de uso positivos para esta nueva tecnología”, aunque aseguran que es imposible imaginar el uso que la gente le dará.

Ahora sí que bastará esperar el lanzamiento oficial de ‘Sora’ para ver cómo afectará o beneficiará la vida de muchas personas. ¿O ustedes qué opinan al respecto?