Neuroninis Tinklas Buvo Išmokytas „animuoti“portretus Remiantis Tik Vienu Statiniu Vaizdu - Alternatyvus Vaizdas

Video: Neuroninis Tinklas Buvo Išmokytas „animuoti“portretus Remiantis Tik Vienu Statiniu Vaizdu - Alternatyvus Vaizdas

Video: „Deepfakes“ kūrimas: vaizdų animavimas dirbtiniu intelektu 2024, Balandis

2024 Autorius: Keith Bush | [email protected]. Paskutinį kartą keistas: 2023-12-16 14:29

Rusijos „Samsung AI“centro - Maskvos dirbtinio intelekto centro specialistai, bendradarbiaudami su Skolkovo mokslo ir technologijos instituto inžinieriais, sukūrė sistemą, galinčią sukurti realius animacinius žmonių veidų vaizdus, paremtus vos keliais statiniais žmogaus kadrais. Paprastai tokiu atveju reikia naudoti dideles vaizdų duomenų bazes, tačiau kūrėjų pateiktame pavyzdyje sistema buvo mokoma sukurti animacinį žmogaus veido atvaizdą iš tik aštuonių statinių rėmelių, o kai kuriais atvejais pakako ir vieno. Norėdami gauti daugiau informacijos apie plėtrą, skaitykite straipsnį, paskelbtą internetiniame „ArXiv.org“saugykloje.

- „Salik.biz“

Paprastai yra gana sunku atkurti fotorealistinį žmogaus veido modulį dėl didelio fotometrinio, geometrinio ir kinematinio žmogaus galvos atgaminimo sudėtingumo. Tai paaiškinama ne tik viso veido modeliavimo sudėtingumu (tam yra daugybė požiūrių į modeliavimą), bet ir tam tikrų savybių: burnos ertmės, plaukų ir kt. Modeliavimo sudėtingumu. Antras komplikuojantis veiksnys yra mūsų polinkis pastebėti net nedidelius gatavo žmogaus modelio trūkumus. Šis žemas modeliavimo klaidų tolerancija paaiškina dabartinį ne fotorealistinių avatarų, naudojamų telekonferencijose, paplitimą.

Anot autorių, sistema, pasivadinusi „Fewshot learning“, gali sukurti labai tikroviškus kalbinčių žmonių galvų modelius ir netgi portretinius paveikslus. Algoritmai sintezuoja to paties asmens galvos atvaizdą veido veido linijomis, paimtomis iš kito vaizdo įrašo fragmento, arba naudojant kito asmens veido atskaitos taškus. Kaip sistemos mokymo šaltinį kūrėjai panaudojo plačią garsenybių vaizdo vaizdų duomenų bazę. Norėdami gauti tiksliausią įmanomą kalbėjimo galvą, sistemai reikia naudoti daugiau nei 32 vaizdus.

Norėdami sukurti realistiškesnius animuotus veido atvaizdus, kūrėjai pasitelkė ankstesnius generacinio prieštaringo modeliavimo pokyčius (GAN, kur neuroninis tinklas sugalvoja įvaizdžio detales, faktiškai tapdamas menininku), taip pat naudojo mašininį metamokymosi metodą, kai kiekvienas sistemos elementas yra apmokytas ir skirtas tam tikroms problemoms išspręsti. konkreti užduotis.

Metamokslinė schema.

Reklaminis vaizdo įrašas:

Statiniams žmonių galvų vaizdams apdoroti ir paversti animaciniais buvo naudojami trys neuroniniai tinklai: „Embedder“(įgyvendinimo tinklas), „Generator“(generavimo tinklas) ir „Discriminator“(diskriminuojančių tinklas). Pirmasis padalina galvos atvaizdus (su apytiksliais veido orientyrais) į įterpimo vektorius, kuriuose yra informacijos, nepriklausančios nuo pozos, antrasis tinklas naudoja įterpimo tinklo gautus veido orientyrus ir pagal juos generuoja naujus duomenis per konvoliucinių sluoksnių rinkinį, užtikrinantį atsparumą masto pokyčiams, poslinkiams, posūkiai, kampo keitimas ir kiti pirminio veido vaizdo iškraipymai. Tinklo diskriminacija naudojama kitų dviejų tinklų kokybei ir autentiškumui įvertinti. Dėl to sistema paverčia asmens veido orientyrus realistiškai atrodančiomis asmeninėms nuotraukoms.

Kūrėjai pabrėžia, kad jų sistema sugeba inicijuoti tiek generatoriaus tinklo, tiek diskriminuojančiojo tinklo parametrus kiekvienam paveikslėlyje esančiam asmeniui, todėl mokymosi procesas gali būti pagrįstas tik keliais vaizdais, o tai padidina jo greitį, nepaisant to, kad reikia pasirinkti dešimtis milijonų parametrų.

Nikolajus Khizhnyak