Noise2Music
La propuesta de Noise2Music, es entrenar una serie de modelos de difusión para generar clips de música de 30 segundos de alta calidad a partir de indicaciones de texto. Dos tipos de modelos de difusión, un modelo generador, que genera una representación intermedia condicionada al texto, y un modelo en cascada, que genera audio de alta fidelidad condicionado a la representación intermedia y posiblemente al texto, se entrenan y utilizan en sucesión para generar audio de alta fidelidad. música de fidelidad.
Exploran dos opciones para la representación intermedia, una usando un espectrograma y la otra usando audio con menor fidelidad. Descubrimos que el audio generado no solo es capaz de reflejar fielmente los elementos clave del mensaje de texto, como el género, el tempo, los instrumentos, el estado de ánimo y la era, sino que va más allá de la semántica detallada del mensaje.
Los modelos de lenguaje grande preentrenados juegan un papel clave en esta historia: se utilizan para generar texto emparejado para el audio del conjunto de entrenamiento y para extraer incrustaciones de las indicaciones de texto ingeridas por los modelos de difusión.
Ejemplos: https://google-research.github.io/noise2music
- [con]Neurona #26 - 18 de diciembre de 2023
- [con]Neurona #25 - 10 de diciembre de 2023
- [con]Neurona #24 - 2 de diciembre de 2023