MemFace para sincronización al hablar
En este estudio, los autores se enfocaron en mejorar la sincronización labial y la calidad de renderizado en la generación de caras hablando. Para lograr esto, desarrollaron una técnica llamada MemFace, que incorpora una memoria implícita y una memoria explícita en los modelos de audio a expresión y renderización neuronal, respectivamente.
La memoria implícita ayuda a superar el desafío del mapeo de uno a muchos al capturar los significados de alto nivel en el espacio compartido de audio-expresión. Por otro lado, la memoria explícita se utiliza para almacenar la apariencia visual específica de una persona, lo que permite que el modelo de renderización neuronal se adapte de manera flexible a un nuevo hablante.
Los autores también implementaron una arquitectura basada en Transformer en el modelo de audio a expresión para predecir la expresión a partir de la característica de audio de entrada. Esto se logró mediante la incorporación de una memoria implícita en el modelo para aliviar el desafío del mapeo de uno a muchos. Durante el proceso de entrenamiento, los conjuntos de claves K y los conjuntos de valores V se actualizaron mediante la propagación hacia atrás del señal de error.
Ejemplo en Video
Referencias
- Los autores de este trabajo son Xingyu Liu, Yuxuan Wang, Zhaowen Wang, Chen Fang, Zhe Gan, Ming-Yu Liu, Xiaodong He y Jan Kautz.
- «Source code mainly borrowed from Jiaxiang Tang‘s RAD-NeRF website and Lior Yariv‘s website template.»
- [con]Neurona #26 - 18 de diciembre de 2023
- [con]Neurona #25 - 10 de diciembre de 2023
- [con]Neurona #24 - 2 de diciembre de 2023