Neuroninis Tinklas Buvo Išmokytas Kopijuoti žmogaus Balsą Beveik Tobulai - Alternatyvus Vaizdas

Turinys:

Neuroninis Tinklas Buvo Išmokytas Kopijuoti žmogaus Balsą Beveik Tobulai - Alternatyvus Vaizdas
Neuroninis Tinklas Buvo Išmokytas Kopijuoti žmogaus Balsą Beveik Tobulai - Alternatyvus Vaizdas

Video: Neuroninis Tinklas Buvo Išmokytas Kopijuoti žmogaus Balsą Beveik Tobulai - Alternatyvus Vaizdas

Video: Neuroninis Tinklas Buvo Išmokytas Kopijuoti žmogaus Balsą Beveik Tobulai - Alternatyvus Vaizdas
Video: TOP 10 IŠRADIMŲ, LABIAUSIAI PAKEITUSIŲ PASAULĮ 2024, Kovo
Anonim

Praėjusiais metais dirbtinio intelekto technologijų įmonė „DeepMind“pasidalino detalėmis apie savo naująjį projektą „WaveNet“- giluminio mokymosi neuroninį tinklą, naudojamą sintezuoti tikrovišką žmogaus kalbą. Neseniai buvo išleista patobulinta šios technologijos versija, kuri bus naudojama kaip skaitmeninio mobiliojo ryšio „Google“asistento pagrindas.

Balso sintezės sistema (dar vadinama teksto į kalbą funkcija, TTS) paprastai kuriama remiantis vienu iš dviejų pagrindinių metodų. Jungiamasis (arba kompiliavimo) metodas apima frazių konstravimą, renkant atskirus įrašytų žodžių fragmentus ir dalis, anksčiau įrašytas dalyvaujant balso aktoriui. Pagrindinis šio metodo trūkumas yra poreikis nuolatos keisti garso biblioteką, kai atliekami atnaujinimai ar pakeitimai.

- „Salik.biz“

Kitas metodas vadinamas parametriniu TTS, o jo ypatybė yra parametrų rinkinių, su kuriais kompiuteris sukuria norimą frazę, naudojimas. Metodo trūkumas yra tas, kad dažniausiai rezultatas pasireiškia nerealiu ar vadinamuoju robotu garsu.

Kita vertus, „WaveNet“sukuria garso bangas nuo nulio, naudodama konvoliucinę nervų tinklo sistemą, kai garsas generuojamas keliais sluoksniais. Pirmiausia, norint išmokyti „gyvos“kalbos sintezės platformą, ji „maitinama“didžiuliu kiekiu mėginių, kartu pažymint, kurie garso signalai skamba realistiškai, o kurie ne. Tai suteikia balso sintezatoriui galimybę atkartoti natūralistinę intonaciją ir netgi tokias detales, kaip smaugiančios lūpos. Priklausomai nuo to, kokie kalbos pavyzdžiai paleidžiami per sistemą, tai leidžia jai sukurti unikalų „akcentą“, kuris ilgainiui gali būti naudojamas kuriant daugybę skirtingų balsų.

Aštrus ant liežuvio

Ko gero, didžiausias „WaveNet“sistemos apribojimas buvo tas, kad paleisti reikėjo milžiniškos skaičiavimo galios ir net įvykdžius šią sąlygą ji nesiskyrė greičiu. Pavyzdžiui, 0,02 sekundės garso sukūrimas užtruko maždaug 1 sekundę laiko.

Po metų darbo „DeepMind“inžinieriai vis dar rado būdą, kaip patobulinti ir optimizuoti sistemą taip, kad ji dabar gali sukurti neapdorotą vienos sekundės garsą tik per 50 milisekundžių, tai yra 1000 kartų greičiau nei jo originalios galimybės. Be to, specialistams pavyko padidinti garso atrankos dažnį nuo 8 bitų iki 16 bitų, o tai turėjo teigiamos įtakos bandymams, kuriuose dalyvavo klausytojai. Šie laimėjimai atvėrė kelią „WaveNet“integracijai į vartojimo produktus, tokius kaip „Google Assistant“.

Reklaminis vaizdo įrašas:

Šiuo metu „WaveNet“gali būti naudojama generuoti angliškus ir japoniškus balsus per „Google Assistant“ir visas platformas, kurios naudoja šį skaitmeninį asistentą. Kadangi sistema gali sukurti specialaus tipo balsus, atsižvelgiant į tai, koks mėginių rinkinys buvo jai pateiktas mokymui, artimiausiu metu „Google“greičiausiai įgyvendins palaikymą realių kalbų sintezėje „WaveNet“kitomis kalbomis, taip pat atsižvelgs į juos vietinės tarmės.

Kalbos sąsajos tampa vis dažnesnės įvairiose platformose, tačiau jų ryškus nenatūralus garso pobūdis daugelį potencialių vartotojų išjungia. „DeepMind“pastangos tobulinti šią technologiją tikrai prisidės prie platesnio tokių balso sistemų pritaikymo, taip pat pagerins jų naudojimo patirtį vartotojams.

Anglų ir japonų kalbos sintezuotų kalbų, naudojant „WaveNet“nervų tinklą, pavyzdžių galite rasti spustelėję šią nuorodą.

Nikolajus Khizhnyak