Herramientas, Modelos

MusicLM texto a música de Google

By Sara Francisco

Modelos de Texto a voz y música

Esta semana, se han lanzado varios modelos interesantes de música y texto a voz generados por AI. Empezando por  MusicLM , un modelo anunciado por Google Research que genera música de alta fidelidad a partir de descripciones de texto enriquecido. 

Aunque el modelo aún no se ha publicado, el conjunto de datos MusicCaps, consta de 5,500 pares de música y texto escritos por humanos, está disponible. Puedes ampliar esto en “ Make-An-Audio que también se publicó esta semana, describiendo la generación de texto a audio con modelos de difusión mejorados rápidos.

Se espera ver una ola de nuevos proyectos de música de IA y modelos de código abierto lanzados en breve, especialmente a medida que los conjuntos de datos de música que hemos comentado se vuelvan accesibles. Existe confianza en que el progreso en los modelos musicales de IA pueda beneficiar a los músicos que exploran nuevos conceptos y reducir el costo y los obstáculos para los nuevos músicos que ingresan a la industria.

Presentación de MusicLM

En su artículo de presentación Google, habla sobre MusicLM, un modelo innovador de generación de música. MusicLM utiliza descripciones en formato de texto, como «una melodía relajante de violín respaldada por un riff de guitarra distorsionado», para generar música de alta fidelidad a 24 kHz que puede mantenerse constante durante varios minutos.

MusicLM adopta un enfoque de modelado jerárquico de secuencia a secuencia en el proceso de generación de música y logra un desempeño superior en comparación con sistemas previos en términos de calidad de audio y adherencia a la descripción del texto.

Además, MusicLM también demuestra su capacidad para condicionarse tanto en texto como en melodía, transformando melodías silbadas y tarareadas de acuerdo con el estilo descrito en una descripción de texto. Para apoyar futuras investigaciones en este campo, los autores han publicado MusicCaps, un conjunto de datos de 5.500 pares de música y texto, con descripciones de texto proporcionadas por expertos humanos.

Ejemplo en la página de MusicLM
Sara Francisco
Últimas entradas de Sara Francisco (ver todo)

Deja un comentario