top of page

IA ahora genera música con calidad de CD a partir de texto y solo está mejorando



La inteligencia artificial (IA) ha avanzado a pasos agigantados en los últimos años, y uno de los campos en los que ha logrado avances significativos es en la generación de música. Recientemente, se ha anunciado una nueva tecnología llamada Stable Audio, desarrollada por Stability AI, que permite generar música con calidad de CD a partir de texto descriptivo. Esta tecnología promete cambiar la forma en que se crea y produce música, y podría tener un impacto significativo en la industria musical.


La promesa de Stable Audio es poder ofrecerle a los usuarios la experiencia de escribir "música de introducción dramática" y escuchar una sinfonía conmovedora o escribir "pasos espeluznantes" y obtener efectos de sonido de alta calidad. Esta tecnología utiliza modelos de IA para sintetizar música estéreo de 44.1 kHz o efectos de sonido a partir de descripciones escritas. Gracias a su constante mejora, esta herramienta podría desafiar a los músicos del futuro.

Stable Audio es el resultado de la colaboración entre Stability AI y AudioSparx, un proveedor de música de stock. Para entrenar el modelo de IA, se utilizó un conjunto de datos que incluía más de 800,000 archivos de audio, que abarcaban música, efectos de sonido y pistas de instrumentos individuales, junto con metadatos descriptivos. La IA aprendió a imitar y generar ciertos sonidos al asociarlos con descripciones de texto en su red neuronal.


El modelo de Stable Audio consta de varias partes que trabajan en conjunto para crear audio personalizado de manera rápida. Una parte del modelo reduce el tamaño del archivo de audio manteniendo sus características importantes y eliminando el ruido innecesario. Esto hace que el sistema sea más rápido tanto para entrenar como para crear nuevo audio. Otra parte utiliza el texto descriptivo para guiar la generación de audio. Según Stability AI, Stable Audio puede renderizar 95 segundos de audio estéreo de 16 bits a una frecuencia de muestreo de 44.1 kHz en menos de un segundo utilizando una GPU Nvidia A100. Esta GPU, diseñada específicamente para el uso de IA, es mucho más potente que una GPU de juegos de escritorio típica. Sin embargo, aunque el audio generado cumple con las especificaciones técnicas de calidad de CD, la calidad perceptual puede variar debido a la compresión utilizada en el conjunto de datos.


Stable Audio no es el primer generador de música basado en técnicas de difusión latente. En el pasado, se han desarrollado otros modelos similares, como Riffusion, que generaba música a partir de sonogramas visuales y MusicLM de Google, que creaba música a partir de descripciones de texto de estados de ánimo y sonidos. Sin embargo, Stable Audio destaca por su capacidad para generar audio estéreo de alta calidad a una frecuencia de muestreo de 44.1 kHz.


Stability AI planea lanzar Stable Audio en dos versiones: una versión gratuita y una versión Pro por una tarifa mensual. La versión gratuita permitirá a los usuarios generar hasta 20 pistas por mes, con una duración máxima de 20 segundos cada una. La versión Pro ampliará estos límites, permitiendo generar hasta 500 pistas al mes y con una duración máxima de 90 segundos cada una. Además, se espera que Stability AI lance modelos de código abierto basados en la arquitectura de Stable Audio, lo que permitirá a los interesados desarrollar sus propios modelos de generación de audio.


Aunque Stable Audio tiene el potencial de generar música con calidad de CD, es poco probable que reemplace por completo a los músicos humanos. La música generada por IA todavía tiene limitaciones en términos de calidad y capacidad para expresar emociones de forma auténtica. Sin embargo, esta tecnología puede convertirse en una herramienta adicional en la caja de herramientas de producción musical de profesionales, brindando nuevas opciones creativas y acelerando el proceso de creación.


En conclusión, la generación de música por parte de la IA ha alcanzado un nuevo nivel con Stable Audio. Esta tecnología promete ofrecer música con calidad de CD a partir de descripciones de texto, lo que podría cambiar la forma en que se crea y produce música. Aunque aún existen limitaciones, es emocionante ver cómo la inteligencia artificial continúa avanzando en este campo y las posibilidades que ofrece para la industria musical.

bottom of page