Fugatto de NVIDIA représente l'une de ces applications révolutionnaires de l'IA ; ses progrès rapides sont en train de révolutionner la synthèse audio et la technologie de transformation. Récemment, leur équipe a lancé Fugatto, un modèle de transformation audio capable de répondre à des commandes textuelles libres pour produire des sorties audio hautement personnalisées. Dans cet article, nous expliquons en détail les concepts fondamentaux, les principaux défis et l'immense potentiel de la technologie Fugatto.
Aperçu du concept Fugatto

Fugatto excelle par sa polyvalence et sa flexibilité. Les modèles traditionnels de traitement audio ont tendance à se concentrer sur des tâches spécifiques ; Fugatto se distingue en tant qu'outil polyvalent de génération et de transformation audio, capable à la fois de générer du texte et d'effectuer diverses transformations telles que la fusion, l'interpolation ou l'annulation de commandes spécifiques.
Fugatto exploite de vastes ensembles de données et des techniques sophistiquées d'apprentissage automatique pour atteindre ses objectifs. Alors que les modèles traditionnels nécessitent généralement un réglage ou une configuration spécifique pour chaque tâche, la conception de Fugatto lui permet de s'adapter facilement à diverses exigences en matière de génération et de transformation audio - un atout inestimable pour les ingénieurs du son, les créatifs, les développeurs de jeux et les utilisateurs occasionnels qui cherchent à explorer le son.
Les modèles traditionnels ont tendance à exceller dans une tâche spécifique et à devenir inutiles lorsqu'ils sont confrontés à des données ou à des variations de tâches, alors que Fugatto se distingue en fonctionnant sur plusieurs tâches sans affecter les performances. Cette capacité unique découle de sa compréhension approfondie des relations audio/linguistiques, en accordant une attention particulière à la manière dont les différentes instructions modifient la synthèse sonore.
Surmonter les défis de la génération de commandement

Fugatto présente de nombreux défis lors de la création de données audio ; l'un de ces obstacles réside dans le fait que les données audio manquent intrinsèquement d'informations sur les commandes qui ont été utilisées pour les générer, par rapport aux données textuelles pour lesquelles les grands modèles de langage (LLM) peuvent déduire des instructions directement à partir de mots écrits. Pour surmonter cet obstacle, les chercheurs ont créé une méthode spécialisée de génération d'ensembles de données ; elle s'accompagne de diverses tâches audio qui créent des corrélations significatives entre les ensembles de données linguistiques et audio.
Le processus de génération de données comporte plusieurs étapes essentielles :
Utilisation des LLM pour la génération d'instructions
En utilisant de grands modèles linguistiques pour générer et enrichir les instructions et les légendes, Fugatto apprend à répondre de manière appropriée aux différentes entrées de l'utilisateur. Son ensemble de données s'enrichit ainsi de commandes linguistiques plus naturelles qui améliorent Fugatto.
Génération d'instructions absolues et relatives
Les chercheurs ont créé des instructions qui peuvent être absolues (par exemple, "synthétiser une voix joyeuse") ou relatives (par exemple, "augmenter le bonheur de cette voix"). Cette double approche permet à Fugatto de gérer efficacement des tâches dynamiques tout en procédant à des ajustements à la demande des propriétés audio.
Exploiter les modèles de compréhension audio
n utilisant des modèles de compréhension audio pour générer des descriptions et des sous-titres synthétiques pour les clips audio, les données d'annotation deviennent beaucoup plus riches, ce qui améliore leurs capacités de généralisation et leurs performances, même dans des situations où le matériel annoté est minimal. Cela augmente les capacités de généralisation tout en améliorant les performances dans des conditions où les informations annotées sont rares.
Transformer des ensembles de données existants
Notre équipe a exploré des méthodes permettant de modifier et d'améliorer les ensembles de données existants afin de révéler de nouvelles relations entre le texte, l'audio et leurs transformations - ce qui permet de créer des tâches entièrement nouvelles sans avoir besoin de plus de données brutes et d'optimiser l'utilisation des ressources.
Fugatto s'appuie fortement sur des données suffisamment riches et variées pour créer un vaste terrain d'entraînement pour son modèle de réseau neuronal, Fugatto. Fugatto utilise cet ensemble de données robustes comme pierre angulaire des sorties audio généralisées dans de nombreux environnements, sur la base d'instructions diverses.
Des percées dans les capacités de composition

Fugatto est confronté à une autre difficulté importante lorsqu'il traite des commandes combinatoires, c'est-à-dire des instructions plus complexes telles que la fusion de plusieurs commandes ou l'interpolation entre deux d'entre elles. Pour résoudre ce problème, les chercheurs ont mis au point une technique d'inférence appelée ComposableART qui permet de gérer plus facilement ces instructions complexes.
ComposableART (Composable Audio Representation Transformation) est une méthode innovante qui étend l'orientation sans classificateur pendant l'inférence, en fournissant une composition flexible des instructions. Cela permet au modèle de produire des sorties audio hautement personnalisables. Les utilisateurs peuvent demander à ComposableART de combiner les caractéristiques de plusieurs échantillons en une seule sortie ou d'annuler certaines caractéristiques pour produire le résultat souhaité.
ComposableART joue un rôle essentiel dans l'adaptabilité de Fugatto. En permettant de composer et de décomposer facilement des instructions, Fugatto peut gérer des scénarios dans lesquels les utilisateurs doivent affiner ou adapter leurs commandes de manière itérative - ce qui est particulièrement utile dans des domaines créatifs tels que la production musicale ou la conception sonore, où la flexibilité expressive est une exigence absolue.
Les outils de création sonore avancés de ComposableART permettent aux artistes et aux ingénieurs d'explorer des sons jusqu'alors inaccessibles ; ses capacités de fusion, d'ajustement et de reformulation créent une palette sonore élargie qui enrichit les processus créatifs et développe l'imagination.
Améliorer la diversité des ensembles de données
Les performances robustes de Fugatto dans diverses tâches ont été assurées par un ensemble de stratégies de génération de données et de commandes mises en œuvre par ses chercheurs :
Utilisation de grands modèles linguistiques pour générer et enrichir les instructions et les sous-titres
Cela permet au modèle d'apprendre des commandes à consonance naturelle plus proches de la parole libre, ce qui améliore sa compréhension et lui permet de suivre de plus près les entrées de l'utilisateur.
Développer des instructions absolues et relatives
Des instructions telles que "synthétiser une voix joyeuse" ou "augmenter son bonheur" permettent aux modèles de s'adapter facilement aux tâches dynamiques en effectuant des ajustements instantanés des propriétés audio à la volée.
Application de modèles de compréhension audio pour générer des descriptions et des sous-titres synthétiques de clips audio
En enrichissant l'ensemble de données avec des annotations significatives - en particulier lorsque les données annotées sont rares -, la généralisation et les performances d'un modèle de compréhension audio s'améliorent considérablement.
Transformation des ensembles de données existants pour identifier les relations
Cette approche maximise l'efficacité de l'utilisation des ressources en permettant la création de tâches sans nécessiter de données brutes supplémentaires.
En combinant diverses approches, les chercheurs ont fait en sorte que Fugatto ait accès à un ensemble de données étendu et varié, ce qui lui a permis d'apprendre à travers des domaines et des contextes audio - jetant les bases d'un apprentissage multitâche non supervisé à grande échelle et découvrant des capacités émergentes telles que la synthèse de sons entièrement nouveaux. Cette combinaison unique a permis à Fugatto d'accéder à un ensemble de données inégalé permettant l'apprentissage multitâche non supervisé à grande échelle ainsi que la découverte de capacités émergentes telles que la synthèse de sons entièrement nouveaux.
Les performances de Fugatto dans le monde réel

Fugatto a démontré des performances compétitives par rapport à des modèles spécialisés optimisés pour des tâches spécifiques, dans le cadre de divers tests et tâches. Qu'il s'agisse de produire de l'audio à partir de zéro sur la base de descriptions textuelles, de transformer de l'audio existant de manière très spécifique ou de créer de toutes nouvelles pistes à partir de pistes existantes, Fugatto relève ces défis avec une grande agilité.
Fugatto se distingue des autres modèles par son extraordinaire capacité à générer des sons uniques, grâce à ComposableART. Fugatto peut produire des sons qui n'ont jamais été entendus auparavant ; par exemple, en utilisant ce modèle, on peut lui demander de générer un son de saxophone qui imite les aboiements d'un chien, ce qui témoigne de son extraordinaire capacité créative.
La polyvalence de Fugatto s'étend à de nombreux domaines d'application. La production musicale l'utilise pour aider les artistes et les producteurs à créer des paysages sonores et des effets uniques ; les jeux vidéo l'utilisent pour générer des environnements audio immersifs et dynamiques ; la réalité virtuelle l'utilise pour fournir des paysages sonores réalistes et contextuels qui améliorent l'expérience de l'utilisateur - les possibilités sont virtuellement illimitées !
Fugatto se distingue à la fois dans le domaine de l'éducation et dans celui de la recherche. Par exemple, son utilisation permet d'étudier l'impact de certains sons sur les émotions ou le comportement des êtres humains, ce qui fournit des informations précieuses dans des domaines tels que la psychologie et les sciences cognitives. En outre, sa capacité à produire un son de haute qualité à partir d'instructions diverses et complexes fait de Fugatto un excellent outil d'apprentissage des langues, offrant aux étudiants un moyen attrayant d'améliorer leurs capacités de compréhension orale grâce à une interaction et à un engagement immersifs.
Conclusion
Les technologies Fugatto et ComposableART de NVIDIA représentent une innovation révolutionnaire dans le domaine de la synthèse et de la transformation audio, ouvrant de nouvelles voies d'application dans les domaines créatifs et au-delà. Au fur et à mesure que cette technologie progresse, son potentiel pourrait s'étendre encore davantage.
Au fur et à mesure que l'adoption de Fugatto se généralise et que ses capacités s'affinent, nous pouvons nous attendre à des avancées encore plus remarquables dans le domaine de la technologie audio. De la création de genres musicaux entièrement nouveaux à l'élaboration de paysages sonores immersifs en réalité virtuelle, Fugatto promet de révolutionner la façon dont nous percevons et pensons le son, en faisant sentir sa présence aujourd'hui plus que jamais - le futur est vraiment là - il semble incroyable.
Fugatto représente une réalisation impressionnante dans le domaine de la technologie audio. En associant de manière transparente des techniques d'apprentissage automatique de pointe à une compréhension intuitive du langage et des tâches de synthèse/transformation audio, NVIDIA a produit un outil qui non seulement répond aux exigences contemporaines en termes de tâches de synthèse/transformation, mais les dépasse ; et alors que nous nous tournons vers son perfectionnement continu, il est évident que ce modèle révolutionnaire jouera un rôle essentiel dans l'élaboration de son développement et de son amélioration futurs.
Le contenu de cet article est basé sur une interprétation de l'article "Fugatto 1-Foundational Generative Audio Transformer Opus 1". Si vous souhaitez approfondir la question, vous pouvez lire directement le document.