GitHub, Herramientas

Avances impresionantes en IA para generar caras hablando con sincronización labial perfecta

By Sara Francisco

MemFace para sincronización al hablar

En este estudio, los autores se enfocaron en mejorar la sincronización labial y la calidad de renderizado en la generación de caras hablando. Para lograr esto, desarrollaron una técnica llamada MemFace, que incorpora una memoria implícita y una memoria explícita en los modelos de audio a expresión y renderización neuronal, respectivamente.

Pipeline completa del modelo utilizado en MemFace
Pipeline completa del modelo utilizado

La memoria implícita ayuda a superar el desafío del mapeo de uno a muchos al capturar los significados de alto nivel en el espacio compartido de audio-expresión. Por otro lado, la memoria explícita se utiliza para almacenar la apariencia visual específica de una persona, lo que permite que el modelo de renderización neuronal se adapte de manera flexible a un nuevo hablante.

Los autores también implementaron una arquitectura basada en Transformer en el modelo de audio a expresión para predecir la expresión a partir de la característica de audio de entrada. Esto se logró mediante la incorporación de una memoria implícita en el modelo para aliviar el desafío del mapeo de uno a muchos. Durante el proceso de entrenamiento, los conjuntos de claves K y los conjuntos de valores V se actualizaron mediante la propagación hacia atrás del señal de error.

Ejemplo en Video

Referencias

Sara Francisco
Últimas entradas de Sara Francisco (ver todo)

Deja un comentario