フガット エヌビディア その急速な進歩は、オーディオ合成と変換技術に革命をもたらしている。最近、彼らのチームは、高度にカスタマイズされたオーディオ出力を生成するために、自由形式のテキストコマンドに応答することができるオーディオ変換モデルとしてFugattoをリリースした。この記事では、Fugattoテクノロジーのコアコンセプト、主な課題、そして計り知れない可能性について詳しく解説する。
フガットのコンセプト

フガット は汎用性と柔軟性に優れています。従来のオーディオ処理モデルは、特定のタスクに焦点を当てる傾向があった。Fugattoは、オーディオ生成と変換のための汎用ツールとして際立っており、テキスト駆動型の生成だけでなく、特定のコマンドのマージ、補間、否定などのさまざまな変換を実行できる。
Fugattoは、その目的を達成するために、大規模なデータセットと洗練された機械学習技術を活用しています。従来のモデルは通常、タスクごとに特定のチューニングや設定が必要でしたが、Fugattoのデザインは、多様なオーディオ生成や変換の要件に容易に適応することを可能にします。これは、オーディオエンジニア、クリエイター、ゲーム開発者、そしてサウンドを探求したいカジュアルユーザーにとって、非常に貴重な資産です。
従来のモデルは、ある特定のタスクを得意とする一方で、データやタスクのバリエーションに直面すると使い物にならなくなる傾向がありましたが、Fugattoはパフォーマンスに影響を与えることなく、さまざまなタスクにまたがって動作することで際立っています。このユニークな能力は、音声と言語の関係を幅広く理解し、様々な指示が音の合成をどのように変化させるかに特に注意を払っていることに起因しています。
指揮官世代の課題を克服する

Fugattoは、音声データを作成する際に多くの課題を提示します。そのような障害の1つは、大規模言語モデル(LLM)が書かれた単語から直接命令を推測できるテキストデータと比較して、音声データにはそれを生成するために使用されたコマンド情報が本質的に欠けていることにあります。この障害に対処するため、研究者は特殊なデータセット生成方法を開発しました。この方法には、言語と音声データセットの間に意味のある相関関係を作り出す様々な音声タスクが含まれています。
データ生成のプロセスには、いくつかの重要なステップがある:
命令生成にLLMを活用する
Fugattoは、指示やキャプションを生成・補強するために大規模な言語モデルを採用することで、さまざまなユーザー入力に対して適切に応答する方法を学習します。これにより、Fugattoのデータセットは、Fugattoを強化する、より自然に聞こえる言語コマンドでリッチになります。
絶対命令と相対命令の生成
研究者は、絶対的な指示(例えば「幸せな声を合成する」)または相対的な指示(例えば「この声の幸福度を上げる」)を作成した。この二重のアプローチにより、Fugattoはダイナミックなタスクを効果的に処理しながら、オーディオのプロパティをオンデマンドで調整することができる。
オーディオ理解モデルの活用
音声クリップの説明や合成キャプションを生成するために音声理解モデルを採用することで、アノテーションデータがよりリッチになり、最小限のアノテーション材料しかない状況でも汎化能力とパフォーマンスが向上する。これにより、汎化能力が向上すると同時に、アノテーション情報が乏しい状況下でのパフォーマンスも向上する。
既存のデータセットを変換する
私たちのチームは、テキスト、音声、およびそれらの変換の間の新しい関係を明らかにするために、既存のデータセットを修正し、強化する方法を探求しました。
Fugattoは、ニューラルネットモデルFugattoのための広大なトレーニングの場を作るために、十分に豊富で多様なデータに大きく依存しています。Fugattoは、この堅牢なデータセットを、多様な指示に基づく多数の環境にわたる一般化された音声出力の基礎として利用します。
作曲能力のブレークスルーに到達する

Fugattoは、複数のコマンドをマージしたり、2つのコマンドの間を補間したりするような、より複雑な命令を意味する組み合わせコマンドを扱う際に、別の大きな困難に直面する。この課題に対処するため、研究者たちは、これらの複雑な命令をより簡単に管理できるComposableARTとして知られる推論技術を開発した。
ComposableART (Composable Audio Representation Transformation)は、推論中に分類器を使わないガイダンスを拡張し、命令の柔軟な合成を提供する革新的な手法である。これにより、モデルは高度にカスタマイズ可能なオーディオ出力を生成することができます。ユーザーはComposableARTに対して、複数のサンプルの特徴を1つの出力にまとめたり、特定の特徴を否定したりして、希望する結果を生成するよう指示することができる。
ComposableARTは、Fugattoの適応性において重要な役割を果たしています。Fugattoは、命令を簡単に構成したり分解したりすることができるため、ユーザーが反復的に命令を改良したり適応させたりする必要のあるシナリオに対応することができます。これは、音楽制作やサウンド・デザインのようなクリエイティブな分野において、表現の柔軟性が絶対的に求められる場合に特に役立つものです。
ComposableARTの高度なサウンド・クリエーション・ツールにより、アーティストやエンジニアは、これまで手の届かなかったサウンドを探求することができます。シームレスなマージ、調整、リフォーミュレーション機能により、創造的なプロセスを豊かにし、想像力を広げるサウンド・パレットが広がります。
データセットの多様性を高める
Fugattoの様々なタスクにおける堅牢な性能は、研究者によって実装されたデータとコマンド生成戦略の数々によって確保された:
大規模な言語モデルを使用して、指示とキャプションを生成し、補強する
こうすることで、モデルはより自然な音声に近いコマンドを学習できるようになり、理解度が高まり、ユーザーの入力により忠実に従うようになる。
絶対命令と相対命令の両方を開発
幸せな声を合成してください」、「幸福度を高めてください」といった指示により、モデルはオーディオ特性をその場で瞬時に調整することで、ダイナミックなタスクに容易に適応することができる。
音声理解モデルを応用して、音声クリップの説明や合成キャプションを生成する
データセットを意味のあるアノテーションで豊かにすることで、特にアノテーションデータが少ない場合、音声理解モデルの汎化と性能は大幅に向上する。
既存のデータセットを変換して関係を特定する
このアプローチでは、生データを追加することなくタスクを作成できるため、リソースの使用効率が最大化される。
様々なアプローチを組み合わせることで、研究者たちはFugattoが広範で多様なデータセットにアクセスできるようにし、音声のドメインやコンテキストを横断して学習できるようにした。これは、教師なしマルチタスク学習を大規模に行うための基盤となるだけでなく、まったく新しい音を合成するような新たな能力を発見することも可能にした。このユニークな組み合わせにより、Fugattoは、大規模な教師なしマルチタスク学習を可能にするだけでなく、まったく新しい音を合成するような新たな能力を解き明かす、比類のないデータセットにアクセスできるようになった。
フガットの実戦パフォーマンス

Fugattoは、様々なテストやタスクにおいて、特定のタスクに最適化された専用モデルと比較して、競争力のあるパフォーマンスを実証してきました。Fugattoは、テキスト記述に基づいてゼロからオーディオを作成したり、非常に特殊な方法で既存のオーディオを変換したり、既存のトラックからまったく新しいトラックを作成したりと、これらの課題に俊敏に対応します。
Fugattoは、ComposableARTのおかげで、ユニークなサウンドを生成する並外れた能力で、他のモデルの中でも際立っています。例えば、犬の鳴き声を模倣したサックスの音色を生成するよう指示することができる。
Fugattoの多用途性は、様々な応用分野に広がっています。音楽制作では、アーティストやプロデューサーがユニークなサウンドスケープやエフェクトを作り上げるために使用され、ゲームでは、没入感のあるダイナミックなオーディオ環境を生成するために使用され、バーチャルリアリティでは、ユーザー体験を向上させる、リアルでありながら状況に応じたサウンドスケープを提供するために使用されます!
Fugattoは、教育現場でも研究現場でも際立っています。例えば、特定の音が人間の感情や行動にどのような影響を与えるかを研究することができ、心理学や認知科学などの分野で貴重な洞察を得ることができます。さらに、多様で複雑な指示によって高品質な音声を生成できるFugattoは、優れた言語学習ツールであり、没入型インタラクションやエンゲージメントを通じてリスニング理解能力を向上させる魅力的な方法を学生に提供します。
結論
エヌビディアのFugattoとComposableARTテクノロジーは、オーディオ合成と変換テクノロジーにおける画期的な革新であり、クリエイティブな分野やそれ以外の分野でのアプリケーションの新たな道を開くものです。この技術がさらに進歩すれば、その可能性はさらに広がるだろう。
Fugattoがより広く採用され、その機能が洗練されるにつれて、オーディオ・テクノロジーのさらなる目覚ましい進歩が期待できます。全く新しいジャンルの音楽の創造から、没入感のあるバーチャル・リアリティのサウンドスケープの構築まで、Fugattoは、私たちがサウンドを体験し、考える方法に革命を起こすことを約束します。
Fugattoは、オーディオ技術における素晴らしい成果を象徴している。最先端の機械学習技術と、言語およびオーディオ合成/変換タスクの直感的な理解をシームレスに融合させることで、エヌビディアは、合成/変換タスクの面で、現代の要求を満たすだけでなく、それを上回るツールを生み出しました。そして、その継続的な改良を見据えるとき、この画期的なモデルが、将来の開発と改良を形作る上で不可欠な役割を果たすことは明らかです。
この記事の内容は、論文""の解釈に基づいている。Fugatto 1-Foundational Generative Audio Transformer 作品1".より深く理解されたい方は、直接論文をお読みください。