Herramientas, Modelos, Paper

Ajuste One-Shot de modelos de difusión para la generación de texto a video

By IA Radar Redaccion

Este estudio fue realizado por un equipo de investigadores liderado por Jay Zhangjie Wu del Show Lab de la Universidad Nacional de Singapur, en colaboración con Yixiao Ge y Xintao Wang del Laboratorio ARC, Xiaohu Qie de PCG Tencent, Stan Weixian Lei, Yuchao Gu y Mike Zheng Shou del Show Lab de la Universidad Nacional de Singapur, y Wynne Hsu de la Facultad de Informática de la Universidad Nacional de Singapur.

Juntos, estos investigadores han desarrollado un nuevo método de generación de video One-Shot para abordar el problema de generación de texto a video (T2V) de manera eficiente. Este estudio es un importante avance en el campo de la generación de T2V y sugiere una nueva forma de abordar este problema en el futuro.

Generación de texto a video (T2V)

La generación de texto a video (T2V) busca reproducir el éxito de la generación de texto a imagen (T2I), utilizando conjuntos de datos de texto y video a gran escala para el ajuste fino. Sin embargo, este paradigma es computacionalmente costoso.

Esquema de funcionamiento Ajuste One-Shot de modelos de difusión para la generación de texto a video

Generación de video One-Shot

Como decíamos en la introducción, se presenta un nuevo problema de generación de T2V: la generación de video One-Shot, en la que solo se presenta un solo par de texto y video para entrenar un generador de T2V de dominio abierto. Para abordar este problema, se propone adaptar el modelo de difusión T2I preentrenado en datos de imágenes masivas para la generación de T2V.

Observaciones clave

Se hacen dos observaciones clave: 1) los modelos T2I pueden generar imágenes que se alinean bien con los términos verbales, 2) la extensión de los modelos T2I para generar múltiples imágenes al mismo tiempo exhibe una consistencia de contenido sorprendentemente buena.

Video de entrenamiento
Modelo Generado

Tune-A-Video

Para aprender más sobre el movimiento continuo, se propone Tune-A-Video con una atención causal dispersa personalizada, que genera videos a partir de indicaciones de texto a través de un ajuste eficiente de una sola toma de modelos de difusión T2I preentrenados. Tune-A-Video es capaz de producir videos coherentes temporalmente en diversas aplicaciones, como cambio de tema o fondo, edición de atributos, transferencia de estilo, lo que demuestra la versatilidad y eficacia del método.

Referencias.

IA Radar Redaccion
Últimas entradas de IA Radar Redaccion (ver todo)

Deja un comentario