La nueva frontera de la IA generativa en audio se llama Fugatto

La nueva frontera de la IA generativa en audio se llama Fugatto

Las noticias en el mundo de la IA no paran de sorprendernos cada semana, y NVIDIA tiene gran culpa de este continuo goteo. Como fabricante del 75% de las GPUs del mercado y protagonista principal de nuestro módulo sobre Deep Learning, nos gusta fijarnos mucho en las aportaciones de este gigante, como la noticia de la que te hablamos en este último post.

El mundo del sonido acaba de dar un giro revolucionario gracias a Fugatto, el nuevo modelo de inteligencia artificial generativa presentado por NVIDIA. Capaz de combinar música, voces y sonidos a partir de indicaciones en texto y audio, este desarrollo marca un antes y un después en la creación y transformación de audio. Su versatilidad le ha valido el apodo de “la navaja suiza del sonido”, permitiendo desde la composición musical hasta la creación de efectos inéditos.

¿Qué es Fugatto?

Fugatto, acrónimo de Foundational Generative Audio Transformer Opus 1, es un modelo pionero en la generación y transformación de audio. Gracias a su diseño avanzado, puede realizar tareas como crear fragmentos musicales a partir de un texto, modificar acentos y emociones en una voz o incluso permitir a los usuarios generar sonidos completamente nuevos.

Rafael Valle, uno de los líderes detrás de este desarrollo, explicó: “Queríamos crear un modelo que comprendiera y generara sonido como lo hacen los humanos”. Fugatto es el primer modelo de su tipo que demuestra propiedades emergentes, es decir, habilidades que surgen de la interacción de sus múltiples capacidades entrenadas. Estas propiedades permiten combinar instrucciones libres en un entorno no supervisado, abriendo un abanico de posibilidades sin precedentes.

Innovación para la creación musical y más allá

Uno de los sectores más beneficiados por Fugatto es la música. Productores y compositores pueden utilizar este modelo para experimentar con estilos, voces e instrumentos. Según el productor Ido Zmishlany: “La historia de la música siempre ha estado ligada a la tecnología. Fugatto representa el siguiente capítulo: un nuevo instrumento para crear música”.

Sin embargo, las aplicaciones de Fugatto van mucho más allá. En publicidad, por ejemplo, puede adaptar campañas a diferentes regiones mediante la modificación de acentos o emociones en las locuciones. En la educación, permite personalizar herramientas de aprendizaje de idiomas con voces familiares. En videojuegos, puede generar o modificar efectos de sonido en tiempo real para adaptarse a la acción del jugador.

Una capacidad creativa sin límites

Lo que distingue a Fugatto de otros modelos es su capacidad de generar audio único y evolutivo. Un ejemplo destacado es su habilidad para crear sonidos nunca antes escuchados, como una trompeta que ladra o un saxofón que maúlla. Esta flexibilidad también incluye la “interpolación temporal”, con la que puede diseñar paisajes sonoros que cambian con el tiempo, como una tormenta que se desvanece en un amanecer lleno de cantos de aves.

Otra característica clave es ComposableART, una técnica que permite combinar instrucciones vistas por separado durante el entrenamiento. Por ejemplo, Fugatto puede generar un discurso con acento francés y tono triste, ajustando la intensidad de cada atributo según las preferencias del usuario.

Rohan Badlani, investigador de IA y uno de los diseñadores del modelo, comentó: “Quería que los usuarios pudieran combinar atributos de forma artística, eligiendo cuánto énfasis poner en cada uno”. Según Badlani, esta capacidad le hizo sentir como un artista, a pesar de ser científico computacional, más concretamente investigador en aprendizaje automático (ML) e ingeniero en informática. Actualmente, trabajando en NVIDIA AI Research desarrollando algoritmos de deep learning para aplicaciones en tiempo real.

La tecnología detrás de Fugatto

El desarrollo de Fugatto implicó el entrenamiento de un modelo de 2.5 mil millones de parámetros en un banco de sistemas NVIDIA DGX, utilizando 32 GPUs NVIDIA H100 Tensor Core. El equipo, compuesto por expertos de países como India, Brasil, China y Corea del Sur, diseñó un conjunto de datos mixtos que incluye millones de muestras de audio. Este enfoque permitió expandir las capacidades del modelo y mejorar su precisión.

Valle destacó dos hitos clave durante el desarrollo: “La primera vez que generó música a partir de un texto fue asombroso. Luego, cuando respondimos a un comando para crear música electrónica con perros ladrando al ritmo, no pudimos contener la risa”.

Un futuro prometedor

Fugatto no solo redefine los límites de la IA generativa, sino que también abre la puerta a un sinfín de aplicaciones en sectores creativos y empresariales. Con su capacidad para generar audio único y su enfoque en el aprendizaje multitarea no supervisado, este modelo promete transformar la manera en que interactuamos con el sonido y la música. Como señaló Zmishlany: “Estamos escribiendo el próximo capítulo de la música con una herramienta que inspira y redefine el proceso creativo”.

En resumen, Fugatto es una prueba del inmenso potencial de la inteligencia artificial en el ámbito del audio, y seguramente se convertirá en una herramienta esencial para artistas, desarrolladores y creadores de todo tipo.

Fuente: https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/

Related Posts

NVIDIA revoluciona el control de robots humanoides con HOVER
Noticias y Novedades
NVIDIA revoluciona el control de robots humanoides con HOVER

NVIDIA ha lanzado HOVER, una innovadora red neuronal que permite el control de movimientos de cuerpo entero en robots humanoides con una eficiencia sin precedentes. Con solo 1,5 millones de parámetros, esta solución unifica múltiples modos de control, optimizando la versatilidad y adaptabilidad en tareas complejas como la locomoción y la manipulación.

Deja un comentario

Your email address will not be published. Required fields are marked.*

× ¿Cómo puedo ayudarte?