푸가토의 NVIDIA 는 이러한 획기적인 AI 애플리케이션 중 하나로, 오디오 합성 및 변환 기술을 혁신적으로 발전시키고 있습니다. 최근 연구팀은 자유 형식 텍스트 명령에 반응하여 고도로 맞춤화된 오디오 출력을 생성할 수 있는 오디오 변환 모델인 Fugatto를 출시했습니다. 이 글에서는 Fugatto 기술의 핵심 개념, 주요 과제 및 엄청난 잠재력에 대해 자세히 설명합니다.
푸가토 컨셉 개요

Fugatto 는 다목적성과 유연성이 뛰어납니다. 기존의 오디오 처리 모델은 특정 작업에 집중하는 경향이 있는 반면, Fugatto는 오디오 생성 및 변환을 위한 범용 도구로 텍스트 기반 생성은 물론 병합, 보간, 무효화 등 다양한 변환을 수행할 수 있는 것이 특징입니다.
Fugatto는 대규모 데이터 세트와 정교한 머신 러닝 기술을 활용하여 목표를 달성합니다. 기존 모델은 일반적으로 모든 작업에 대해 특정 튜닝이나 구성이 필요하지만, Fugatto는 다양한 오디오 생성 및 변환 요구 사항에 쉽게 적응할 수 있도록 설계되어 오디오 엔지니어, 크리에이티브, 게임 개발자 및 사운드를 탐색하려는 일반 사용자에게 귀중한 자산이 될 수 있습니다.
기존 모델은 한 가지 특정 작업에서는 뛰어난 성능을 발휘하지만 데이터나 작업의 변형에 직면하면 쓸모없어지는 경향이 있지만, Fugatto는 성능에 영향을 주지 않고 다양한 작업에서 작동하는 것이 특징입니다. 이 독특한 기능은 오디오/언어 관계에 대한 폭넓은 이해와 다양한 명령어가 사운드 합성을 어떻게 변화시키는지에 대한 특별한 관심에서 비롯됩니다.
명령 생성 문제 극복하기

대규모 언어 모델(LLM)이 서면 단어에서 직접 명령을 추론할 수 있는 텍스트 데이터에 비해 오디오 데이터는 본질적으로 생성에 사용된 명령 정보가 부족하기 때문에 오디오 데이터를 생성할 때 많은 어려움이 있습니다. 이 문제를 해결하기 위해 연구자들은 특수한 데이터 세트 생성 방법을 개발했으며, 이를 통해 언어와 오디오 데이터 세트 간에 의미 있는 상관관계를 생성하는 다양한 오디오 작업을 수행했습니다.
데이터 생성 프로세스에는 몇 가지 필수 단계가 수반됩니다:
명령어 생성을 위한 LLM 활용하기
대규모 언어 모델을 사용하여 지침과 캡션을 생성하고 보강함으로써 Fugatto는 다양한 사용자 입력에 적절하게 대응하는 방법을 학습합니다. 이를 통해 데이터 세트는 더욱 자연스러운 언어 명령으로 더욱 풍부해져 Fugatto를 향상시킵니다.
절대 및 상대 명령어 생성하기
연구원들은 절대적(예: "행복한 목소리 합성")이거나 상대적(예: "이 목소리의 행복도를 높여라")일 수 있는 명령을 만들었습니다. 이러한 이중 접근 방식을 통해 Fugatto는 동적인 작업을 효과적으로 처리하는 동시에 오디오 속성을 온디맨드 방식으로 조정할 수 있습니다.
오디오 이해 모델 활용하기
오디오 이해 모델을 사용하여 오디오 클립에 대한 설명과 합성 캡션을 생성하면 주석이 달린 데이터가 훨씬 더 풍부해져 주석이 달린 자료가 적은 상황에서도 일반화 기능과 성능이 향상됩니다. 이렇게 하면 일반화 기능이 향상되는 동시에 주석 정보가 부족한 조건에서도 성능이 향상됩니다.
기존 데이터 집합 변환
저희 팀은 텍스트, 오디오 및 그 변환 간의 새로운 관계를 밝혀내기 위해 기존 데이터 세트를 수정하고 개선하는 방법을 모색하여 더 많은 원시 데이터 없이도 완전히 새로운 작업을 생성하고 리소스 사용을 최적화할 수 있는 기회를 제공했습니다.
Fugatto는 신경망 모델인 Fugatto의 광범위한 학습 기반을 만들기 위해 충분히 풍부하고 다양한 데이터에 크게 의존하고 있습니다. Fugatto는 이 강력한 데이터 세트를 다양한 지침에 따라 수많은 환경에서 일반화된 오디오 출력을 위한 초석으로 활용합니다.
작곡 능력의 획기적인 향상

푸가토는 조합 명령, 즉 여러 명령을 병합하거나 두 명령 사이를 보간하는 등 복잡한 명령을 처리할 때 또 다른 큰 어려움에 직면합니다. 이 문제를 해결하기 위해 연구원들은 이러한 복잡한 명령을 보다 쉽게 관리할 수 있는 ComposableART라는 추론 기법을 개발했습니다.
컴포저블아트(ComposableART, 구성 가능한 오디오 표현 변환)는 추론 중에 분류기 없이 지침을 확장하는 혁신적인 방법으로, 지침을 유연하게 구성할 수 있습니다. 이를 통해 모델은 고도로 사용자 정의 가능한 오디오 출력을 생성할 수 있습니다. 사용자는 여러 샘플의 특징을 하나의 출력으로 결합하거나 특정 특징을 무효화하여 원하는 결과를 생성하도록 ComposableART에 지시할 수 있습니다.
컴포저블아트는 Fugatto의 적응성에서 핵심적인 역할을 합니다. 명령어를 쉽게 구성하고 분해할 수 있어 Fugatto는 사용자가 명령을 반복적으로 수정하거나 조정해야 하는 시나리오를 처리할 수 있으며, 이는 표현의 유연성이 절대적으로 요구되는 음악 제작이나 사운드 디자인과 같은 창의적인 분야에서 특히 유용합니다.
컴포저블아트의 고급 사운드 제작 도구를 사용하면 아티스트와 엔지니어는 이전에는 불가능했던 사운드를 탐색할 수 있으며, 원활한 병합, 조정 및 재구성 기능을 통해 확장된 사운드 팔레트를 만들어 창작 과정을 풍성하게 하고 상상력을 확장할 수 있습니다.
데이터 세트 다양성 향상
연구원들이 구현한 다양한 데이터 및 명령 생성 전략을 통해 다양한 작업에서 강력한 성능을 보장할 수 있었습니다:
대규모 언어 모델을 사용하여 지침 및 캡션 생성 및 보강하기
이렇게 하면 모델이 자유형식에 가까운 자연스러운 명령어를 학습하여 이해도를 높이고 사용자 입력을 더 가깝게 따라갈 수 있습니다.
절대 명령어와 상대 명령어 모두 개발하기
"행복한 목소리 합성해" 또는 "행복도 높여"와 같은 지시를 통해 모델은 오디오 속성을 즉각적으로 조정하여 동적인 작업을 쉽게 조정할 수 있습니다.
오디오 이해 모델을 적용하여 오디오 클립의 설명 및 합성 캡션 생성하기
특히 주석이 달린 데이터가 부족한 경우, 의미 있는 주석으로 데이터 세트를 보강하면 오디오 이해 모델의 일반화 및 성능이 크게 향상됩니다.
관계를 식별하기 위한 기존 데이터 집합의 변환
이 접근 방식은 추가적인 원시 데이터 요구 사항 없이 작업을 생성할 수 있도록 하여 리소스 사용 효율성을 극대화합니다.
연구원들은 다양한 접근 방식을 결합하여 Fugatto가 광범위하고 다양한 데이터 세트에 액세스할 수 있도록 함으로써 오디오 영역과 컨텍스트 전반에서 학습할 수 있도록 하여 대규모 비지도 멀티태스크 학습의 기반을 제공하고 완전히 새로운 소리를 합성하는 것과 같은 새로운 능력을 발견할 수 있도록 했습니다. 이 독특한 조합을 통해 푸가토는 비할 데 없는 데이터 세트에 액세스하여 대규모의 비지도 멀티태스크 학습을 가능하게 하고 완전히 새로운 소리를 합성하는 것과 같은 새로운 능력을 발견할 수 있었습니다.
푸가토의 실제 성능

Fugatto는 다양한 테스트와 작업에서 특정 작업에 최적화된 전문 모델과 비교했을 때 경쟁력 있는 성능을 입증했습니다. 텍스트 설명을 기반으로 처음부터 오디오를 제작하거나 기존 오디오를 매우 구체적인 방식으로 변형하는 것부터 기존 트랙에서 새로운 트랙을 만드는 것까지, Fugatto는 이러한 과제를 매우 민첩하게 처리합니다.
Fugatto는 ComposableART를 통해 독특한 사운드를 생성할 수 있는 탁월한 능력으로 다른 모델들 중에서도 특히 돋보입니다. 예를 들어, 이 모델을 사용하여 개 짖는 소리를 흉내 내는 색소폰 음색을 생성하도록 지시하면 뛰어난 창의력을 발휘할 수 있습니다.
Fugatto는 다양한 응용 분야에서 활용도가 높습니다. 음악 프로덕션에서는 아티스트와 프로듀서가 독특한 사운드스케이프와 효과를 제작하는 데 사용하고, 게임에서는 몰입감 있고 역동적인 오디오 환경을 생성하는 데 사용하고, 가상 현실에서는 사용자 경험을 향상시키는 사실적이면서도 상황에 맞는 사운드스케이프를 제공하는 데 활용하는 등 그 가능성은 사실상 무궁무진합니다!
푸가토는 교육 및 연구 환경 모두에서 두각을 나타냅니다. 예를 들어, 특정 소리가 인간의 감정이나 행동에 어떤 영향을 미치는지 연구하는 데 도움을 줄 수 있어 심리학이나 인지 과학과 같은 분야에서 귀중한 통찰력을 제공합니다. 또한, 다양하고 복잡한 지시를 통해 고품질의 오디오를 생성할 수 있는 Fugatto는 학생들이 몰입적인 상호작용과 참여를 통해 듣기 이해력을 향상시킬 수 있는 매력적인 방법을 제공하는 훌륭한 언어 학습 도구입니다.
결론
오디오 합성 및 변환 기술의 획기적인 혁신을 대표하는 NVIDIA의 푸가토 및 컴포저블아트 기술은 크리에이티브 분야와 그 너머에 새로운 응용 분야를 열어줍니다. 이 기술이 더욱 발전함에 따라 그 잠재력은 더욱 넓게 확산될 수 있습니다.
Fugatto가 더욱 널리 채택되고 기능이 개선됨에 따라 오디오 기술에서 더욱 놀라운 발전을 기대할 수 있습니다. 완전히 새로운 장르의 음악 제작부터 몰입형 가상 현실 사운드스케이프 구축까지, Fugato는 우리가 소리를 경험하고 생각하는 방식에 혁신을 일으킬 것이며, 그 어느 때보다 그 존재감을 느낄 수 있는 놀라운 사운드의 미래가 바로 지금 여기에 있습니다.
Fugatto는 오디오 기술 분야에서 인상적인 업적을 남겼습니다. 최첨단 머신 러닝 기술과 언어 및 오디오 합성/변환 작업에 대한 직관적인 이해를 완벽하게 결합함으로써 NVIDIA는 합성/변환 작업 측면에서 현대적인 요구를 충족할 뿐만 아니라 이를 뛰어넘는 도구를 만들었으며, 지속적인 개선을 앞두고 있는 이 획기적인 모델이 향후 개발과 개선에 필수적인 역할을 할 것이 분명합니다.
이 문서의 내용은 "" 논문의 해석을 기반으로 작성되었습니다.푸가토 1-기초 제너레이티브 오디오 트랜스포머 작품 1". 더 깊은 이해를 원하시면 직접 논문을 읽어보실 수 있습니다.