Fugatto alates NVIDIA on üks neist murrangulistest tehisintellekti rakendustest, mille kiire areng on muutmas heli sünteesi ja muundamise tehnoloogiat. Hiljuti avaldas nende meeskond Fugatto kui audiotransformatsioonimudeli, mis suudab reageerida vabavormilistele tekstikäsklustele, et toota väga kohandatud heliväljundeid. Selles artiklis selgitame põhjalikult selle põhimõisteid, peamisi väljakutseid ja Fugatto tehnoloogia tohutut potentsiaali.
Fugatto kontseptsiooni ülevaade

Fugatto paistab silma mitmekülgsuse ja paindlikkuse poolest. Traditsioonilised helitöötlusmudelid keskenduvad pigem konkreetsetele ülesannetele; Fugatto paistab silma kui üldotstarbeline vahend heli genereerimiseks ja muundamiseks, mis suudab nii tekstipõhist genereerimist kui ka erinevaid muundamisi, nagu liitmine, interpoleerimine või konkreetsete käskude eitamine, teostada.
Fugatto kasutab oma eesmärkide saavutamiseks suuri andmekogumeid ja keerukaid masinõppe meetodeid. Kui traditsioonilised mudelid nõuavad tavaliselt iga ülesande jaoks spetsiifilist häälestamist või konfigureerimist, siis Fugatto disain võimaldab seda hõlpsasti kohandada erinevate helitootmis- ja muundamisnõuetega - see on hindamatu väärtus heliinseneridele, loovisikutele, mänguarendajatele ja juhuslikele kasutajatele, kes soovivad heli uurida.
Traditsioonilised mudelid kipuvad olema suurepärased ühe konkreetse ülesande täitmisel, kuid muutuvad kasutuks, kui nad puutuvad kokku andmete või ülesannete variatsioonidega, kuid Fugatto paistab silma sellega, et töötab erinevate ülesannete vahel, ilma et see mõjutaks tulemuslikkust. See ainulaadne võime tuleneb tema ulatuslikust arusaamisest heli ja keele suhetest; erilist tähelepanu pööratakse sellele, kuidas erinevad juhised muudavad helisünteesi.
Käskude genereerimisega seotud probleemide ületamine

Fugatto esitab audioandmete loomisel mitmeid väljakutseid; üks selline takistus seisneb selles, et audioandmetele on omane puudulik teave käskude kohta, mida kasutati nende genereerimiseks, võrreldes tekstiliste andmetega, kus suured keelemudelid (LLM) saavad juhiseid tuletada otse kirjutatud sõnadest. Selle takistuse kõrvaldamiseks lõid teadlased spetsiaalse andmekogumi genereerimise meetodi; sellega kaasnevad erinevad audioülesanded, mis loovad keele- ja audioandmekogumite vahel mõtestatud korrelatsioone.
Andmete genereerimise protsess hõlmab mitmeid olulisi etappe:
LLMide kasutamine juhiste genereerimiseks
Fugatto õpib, kuidas reageerida asjakohaselt erinevatele kasutaja sisenditele, kasutades juhiste ja tekstide genereerimiseks ja täiendamiseks suuri keelemudeleid. See muudab selle andmekogumi rikkalikumaks loomulikuma kõlaga keelekäskude abil, mis täiustavad Fugattot.
Absoluutsete ja suhteliste juhiste genereerimine
Teadlased lõid juhised, mis võivad olla kas absoluutsed (nt "sünteesida õnnelikku häält") või suhtelised (nt "suurendada selle hääle õnnelikkust"). Selline kahesugune lähenemine võimaldab Fugatto tõhusalt käsitleda dünaamilisi ülesandeid, tehes samal ajal soovi korral kohandusi heliomadustele.
Audio mõistmise mudelite kasutamine
y kasutades heli mõistmise mudeleid heliklippide kirjelduste ja sünteetiliste pealkirjade genereerimiseks, muutub andmete kommenteerimine palju rikkalikumaks, mis parandab selle üldistusvõimet ja tulemuslikkust isegi minimaalse kommenteeritud materjaliga olukordades. See suurendab üldistamisvõimet, suurendades samal ajal jõudlust tingimustes, kus annoteeritud teavet on vähe.
Olemasolevate andmekogumite ümberkujundamine
Meie meeskond uuris meetodeid olemasolevate andmekogumite muutmiseks ja täiustamiseks, et tuua esile uusi seoseid teksti, heli ja nende teisenduste vahel - pakkudes võimalusi täiesti uute ülesannete loomiseks, ilma et oleks vaja rohkem toorandmeid; optimeerides ressursside kasutamist.
Fugatto tugineb suuresti piisavalt rikkalikele ja mitmekesistele andmetele, et luua oma neuronvõrgumudeli Fugatto jaoks ulatuslik treeningpind. Fugatto kasutab seda tugevat andmestikku nurgakivina, et saavutada üldistatud heliväljundid arvukates keskkondades, mis põhinevad erinevatel juhistel.
Läbimurde saavutamine kompositsioonilistes võimetes

Fugatto seisab silmitsi veel ühe märkimisväärse probleemiga kombineeritud käskude käsitlemisel, mis tähendab keerulisemaid käske, nagu mitme käsu ühendamine või kahe käsu vahel interpoleerimine. Selle probleemi lahendamiseks töötasid teadlased välja järeldustehnika nimega ComposableART, mis aitab neid keerulisi käske lihtsamalt hallata.
ComposableART (Composable Audio Representation Transformation) on uuenduslik meetod, mis laiendab klassifikaatorivaba juhendamist järeldamise ajal, pakkudes paindlikku juhiste kompositsiooni. See võimaldab mudelil toota väga kohandatavaid heliväljundeid. Kasutajad võivad anda ComposableARTile korralduse kombineerida mitme proovi omadused üheks väljundiks või eirata teatud omadused, et saavutada soovitud tulemus.
ComposableART mängib olulist rolli Fugatto kohanemisvõimes. Kuna Fugatto võimaldab juhiseid hõlpsasti koostada ja lahutada, saab ta hakkama stsenaariumidega, kus kasutajad peavad oma käske iteratiivselt täpsustama või kohandama - see on eriti kasulik sellistes loomingulistes valdkondades nagu muusika tootmine või helikujundus, kus väljendusrikas paindlikkus on absoluutne nõue.
ComposableARTi täiustatud heliloomingu tööriistad võimaldavad kunstnikel ja inseneridel uurida varem kättesaamatuid helisid; selle sujuv ühendamine, kohandamine ja ümberkujundamine loovad laiendatud helipaleti, mis rikastab loomingulisi protsesse ja avardab kujutlusvõimet.
Andmekogumi mitmekesisuse suurendamine
Fugatto kindel jõudlus erinevate ülesannete täitmisel tagati teadlaste poolt rakendatud andmete ja käskude genereerimise strateegiate abil:
Suurte keelemudelite kasutamine juhiste ja pealkirjade genereerimiseks ja täiendamiseks
See võimaldab mudelil õppida loomulikku kõnet, mis on lähemal vabas vormis kõnele, suurendades selle arusaamist ja järgides paremini kasutaja sisestusi.
Nii absoluutsete kui ka suhteliste juhiste väljatöötamine
Sellised juhised nagu "sünteesige õnnelik hääl" või "suurendage selle õnnelikkust" võimaldavad mudelitel hõlpsasti kohandada dünaamilisi ülesandeid, tehes koheseid kohandusi heliomadustes jooksvalt.
Audio mõistmise mudelite rakendamine heliklippide kirjelduste ja sünteetiliste pealkirjade genereerimiseks
Andmekogumi rikastamisel sisuliste annotatsioonidega - eriti kui annoteeritud andmeid on vähe - paraneb oluliselt heli mõistmise mudeli üldistusvõime ja jõudlus.
Olemasolevate andmekogumite ümberkujundamine seoste kindlakstegemiseks
Selline lähenemisviis maksimeerib ressursikasutuse tõhusust, võimaldades ülesannete loomist ilma täiendavate toorandmete vajaduseta.
Erinevate lähenemisviiside kombineerimisega tagasid teadlased Fugatto juurdepääsu ulatuslikule ja mitmekesisele andmekogumile, mis võimaldas tal õppida erinevates audiovaldkondades ja kontekstides - see andis aluse järelevalveta mitut ülesannet hõlmavale õppimisele ja ka selliste uute võimete avastamisele nagu täiesti uute helide sünteesimine. See ainulaadne kombinatsioon võimaldas Fugattole juurdepääsu ainulaadsetele andmekogumitele, mis võimaldasid nii järelevalveta mitme ülesande õppimist skaalal kui ka selliste esilekerkivate võimete avamist nagu täiesti uute helide sünteesimine.
Fugatto tegelik jõudlus

Fugatto on erinevates testides ja ülesannetes näidanud konkurentsivõimelist jõudlust võrreldes spetsiaalsete, konkreetsete ülesannete jaoks optimeeritud mudelitega. Fugatto võtab need ülesanded väga agiilselt vastu, alates heli loomisest nullist teksti kirjelduste põhjal või olemasoleva heli muutmisest väga spetsiifilisel viisil kuni täiesti uute lugude loomiseni olemasolevatest lugudest.
Fugatto paistab teiste mudelite seast silma tänu ComposableARTi erakordsele võimele luua unikaalseid helisid. Fugatto suudab toota heli, mida pole kunagi varem kuuldud; näiteks võib selle mudeli abil anda talle korralduse genereerida saksofoniheli, mis imiteerib koera haukumist, mis on tõendiks selle erakordsest loomingulisest võimekusest.
Fugatto mitmekülgsus ulatub erinevatesse rakendusvaldkondadesse. Muusikatootmine kasutab seda, et aidata artistidel ja produtsentidel luua unikaalseid helimaastikke ja efekte; mängud kasutavad seda, et luua kaasahaaravaid ja dünaamilisi helikeskkondi; virtuaalne reaalsus kasutab seda, et pakkuda realistlikke, kuid kontekstitundlikke helimaastikke, mis parandavad kasutaja kogemust - võimalused on praktiliselt piiramatud!
Fugatto paistab silma nii haridus- kui ka teadustöös. Näiteks võib selle kasutamine aidata uurida, kuidas teatud helid mõjutavad inimeste emotsioone või käitumist - see annab hindamatuid teadmisi sellistes valdkondades nagu psühholoogia ja kognitiivsed teadused. Lisaks sellele muudab Fugatto võime toota kvaliteetset heli mitmekesiste ja keeruliste juhiste abil suurepäraseks keeleõppe vahendiks, mis pakub õpilastele kaasahaaravat võimalust parandada kuuldu mõistmise võimet kaasahaarava suhtluse ja kaasamise kaudu.
Kokkuvõte
NVIDIA Fugatto ja ComposableART tehnoloogiad esindavad teedrajavaid uuendusi helisünteesi ja muundamise tehnoloogia valdkonnas, avades uusi rakendusvõimalusi loomingulistes valdkondades ja kaugemalgi. Kui see tehnoloogia areneb edasi, võib selle potentsiaal veelgi laiemalt levida.
Kuna Fugatto võetakse üha laialdasemalt kasutusele ja selle võimalusi täiustatakse, võime oodata veelgi märkimisväärsemaid edusamme audiotehnoloogias. Alates täiesti uute muusikastiilide loomisest kuni virtuaalreaalsuse helimaastike loomiseni - Fugatto lubab revolutsiooniliselt muuta seda, kuidas me heli kogeme ja sellest mõtleme, muutes oma kohalolekut praegu rohkem kui kunagi varem - tulevik on tõesti siin - see kõlab uskumatult.
Fugatto on muljetavaldav saavutus helitehnoloogias. Ühendades sujuvalt tipptasemel masinõppe tehnikad intuitiivse arusaamaga keele ja heli sünteesi/transformeerimise ülesannetest, on NVIDIA loonud tööriista, mis mitte ainult ei vasta, vaid ületab kaasaegseid nõudmisi sünteesi/transformeerimise ülesannete osas; ja kuna me vaatame selle jätkuva täiustamise poole, on ilmselge, et see murranguline mudel mängib olulist rolli selle edasise arengu ja täiustamise kujundamisel.
Käesoleva artikli sisu põhineb tõlgendusel paberist "Fugatto 1-Foundational Generative Audio Transformer Opus 1". Kui soovite saada sügavamat arusaamist, võite otse lugeda paberit.