De texto a video con IA: Zeroscope

¿Qué es Zeroscope? 📹

Zeroscope es un software desarrollado por la empresa china Modelscope, que permite generar videos simplemente a partir de texto, es decir, le damos un input como por ejemplo “Peces de color azul nadando en el espacio exterior” y en base a ese input, genera un video intentando representarlo.

Y Zeroscope ha sacado su siguiente versión: Zeroscope V2 además escalable a un tamaño mayor(en cuánto a píxeles en los videos) con la versión V2 XL. Ha sido entrenada con casi 10.000 clips prestando atención a cómo se interrelaciona un fotograma con los siguientes.

He creado un par de videos de ejemplo para mostrarlos en Makiai:

📂 Zeroscope es de código abierto por lo que la comunidad puede ver su código y crecer en base a nuevas ideas e implementaciones lo que garantiza en la práctica un veloz desarrollo.

GEN2 de Runway vs Zeroscope ⚔️

Runway es una herramienta comercial de edición de videos y fotografías a través de IA, que ha lanzado siendo pionera, GEN1 y luego GEN2 que es una herramienta de generación de videos a través de texto. Zeroscope es su rival de código abierto ahora mismo, ya que las herramientas de Runway no han liberado su código al público.

Cómo usar Zeroscope 🍣

Puedes usar Zeroscope de distintas maneras que expondré aquí:

  • Replicate: Replicate es un sitio web donde se sirven API’s y playground de IA. Allí podrás usar tanto mediante API como mediante interfaz el modelo Zeroscope y gratis, tras unas pocas veces si tendrás que pagar.
  • HuggingFace: En principio es gratuito pero si lo usas demasiado tendrás que pagar. Nota: Este enlace es la versión anterior a Zeroscape no a la últilma(V2-XL).
  • En tu PC: Puedes instalar Zeroscope en tu ordenador. La RAM mínima son 8GB para poder correr el modelo e instalarlo no es apto para impacientes.

Impacto a corto plazo ✨

No hay que ser muy imaginativo para dárse cuenta del hecho de que modelos como GEN2 o Zeroscape V2 pueden tener un gran impacto en la sociedad a muchos niveles. Ahora mismo recuerdan a StableDiffusion o DALLE de OpenAI, dando sus primeros pasos hace muy pocos años.

Si siguieran la misma tendencias que las IA relacionadas con las imágenes, lo cual es probable, en 1-2 años veremos como se pueden generar videos de una calidad y coherencia “decente” cada vez más largos.

Y esto puede implicar cambios en la sociedad como:

  • Cine: Puede usarse como herramienta adicional en la creación de películas y series e incluso que sea el consumidor quién directamente pida a la IA una película o serie a su gusto.
  • Plataformas de contenido: Se podría generar contenido masivo por parte de especialista así como también generar contenido bajo demanda del usuario, totalmente personalizado.

El límite es la imaginación y sus consecuencias en la economía y en la sociedad son difícilmente predecibles.

Like