Microsoft acaba de presentar VALL-E, una innovadora tecnología de síntesis de texto a voz (TTS) que emplea códigos de códecs de audio como representaciones intermedias. Esta ha sido entrenada con 60.000 horas de datos de habla inglesa, demostrando así su habilidad para aprender en contexto sin necesidad de tener información previa.
VALL-E permite generar habla personalizada de calidad con sólo una grabación de 3 segundos de la voz del usuario como aviso acústico.
VALL-E es capaz de generar varias salidas a partir de una misma entrada de texto, conservando la expresión emocional del hablante y la indicación acústica. Ha resultado ser superior al sistema TTS de disparo cero en LibriSpeech y VCTK. Incluso ha proporcionado resultados TTS más recientes para esos dos datasets. Los usuarios que no pueden hablar por alguna razón, pueden recurrir a este método de texto a voz.
¿Qué características tiene Vall-E?
VALL-E es un algoritmo que genera tokens discretos (palabras o frases) a partir de un texto de entrada. Usa una técnica llamada muestreo para hacer esto, lo que significa que la salida que produce para el mismo texto de entrada puede variar cada vez. Además, puede usar semillas aleatorias para generar muestras de habla personalizadas.
Mantenimiento de una voz personalizada: VALL-E puede generar una voz que suene como la del locutor, conservando su entorno acústico. Se entrena a partir de grandes
Mantenimiento de la emoción del hablante: VALL-E usa la base de datos Emotional Voices para generar mensajes de audio personalizados con el tono apropiado. Esto se consigue a través de una transcripción de la etiqueta de emoción y una etiqueta de emoción en un conjunto de datos TTS Supervisado.
- [con]Neurona #26 - 18 de diciembre de 2023
- [con]Neurona #25 - 10 de diciembre de 2023
- [con]Neurona #24 - 2 de diciembre de 2023