Herramientas, Paper

Noise2Music: generación de música condicionada por texto

By Sara Francisco

Noise2Music

La propuesta de Noise2Music, es entrenar una serie de modelos de difusión para generar clips de música de 30 segundos de alta calidad a partir de indicaciones de texto. Dos tipos de modelos de difusión, un modelo generador, que genera una representación intermedia condicionada al texto, y un modelo en cascada, que genera audio de alta fidelidad condicionado a la representación intermedia y posiblemente al texto, se entrenan y utilizan en sucesión para generar audio de alta fidelidad. música de fidelidad. 

Noise2Music
Noise2Music

Exploran dos opciones para la representación intermedia, una usando un espectrograma y la otra usando audio con menor fidelidad. Descubrimos que el audio generado no solo es capaz de reflejar fielmente los elementos clave del mensaje de texto, como el género, el tempo, los instrumentos, el estado de ánimo y la era, sino que va más allá de la semántica detallada del mensaje.

Noise2Music

Los modelos de lenguaje grande preentrenados juegan un papel clave en esta historia: se utilizan para generar texto emparejado para el audio del conjunto de entrenamiento y para extraer incrustaciones de las indicaciones de texto ingeridas por los modelos de difusión. 

Ejemplos: https://google-research.github.io/noise2music

Sara Francisco
Últimas entradas de Sara Francisco (ver todo)

Deja un comentario