Priešingos Pusės Priepuoliai: Kodėl Nervų Tinklą Lengva Apgauti? - Alternatyvus Vaizdas

Turinys:

Priešingos Pusės Priepuoliai: Kodėl Nervų Tinklą Lengva Apgauti? - Alternatyvus Vaizdas
Priešingos Pusės Priepuoliai: Kodėl Nervų Tinklą Lengva Apgauti? - Alternatyvus Vaizdas

Video: Priešingos Pusės Priepuoliai: Kodėl Nervų Tinklą Lengva Apgauti? - Alternatyvus Vaizdas

Video: Priešingos Pusės Priepuoliai: Kodėl Nervų Tinklą Lengva Apgauti? - Alternatyvus Vaizdas
Video: Alternative Media vs. Mainstream: History, Jobs, Advertising - Radio-TV-Film, University of Texas 2024, Gegužė
Anonim

Pastaraisiais metais vis labiau vyraujant gilaus mokymosi sistemoms, mokslininkai pademonstravo, kaip prieštaringi modeliai gali paveikti bet ką - nuo paprasto vaizdų klasifikatoriaus iki vėžio diagnostikos sistemų - ir netgi sukurti pavojingą gyvybei situaciją. Nepaisant visų jų pavojų, prieštaringi pavyzdžiai yra mažai suprantami. Ir mokslininkai susirūpino: ar šią problemą galima išspręsti?

Kas yra priešiškas išpuolis? Tai būdas apgauti nervinį tinklą gaunant neteisingą rezultatą. Jie daugiausia naudojami moksliniuose tyrimuose, siekiant patikrinti modelių tvirtumą palyginus su nestandartiniais duomenimis. Tačiau realiame gyvenime kaip pavyzdį galite pakeisti keletą taškų pandos atvaizde, kad nervų tinklas įsitikintų, ar paveikslėlyje yra juostos. Nors mokslininkai prie įvaizdžio prideda tik „triukšmą“.

- „Salik.biz“

Varžovų ataka: kaip apgauti nervų tinklą?

Naujas Masačusetso technologijos instituto darbas nurodo galimą šios problemos įveikimo būdą. Tai išsprendę, galėtume sukurti daug patikimesnius gilaus mokymosi modelius, kuriais būtų daug sunkiau manipuliuoti kenkėjiškais būdais. Tačiau pirmiausia pažvelkime į prieštaringų modelių pagrindus.

Kaip žinote, giluminio mokymosi galia kyla iš jo geresnio sugebėjimo atpažinti modelius (modelius, modelius, diagramas, modelius) duomenyse. Padekite dešimtys tūkstančių neuroninių tinklų pažymėtų gyvūnų nuotraukų ir sužinosite, kokie modeliai yra susiję su panda, o kurie - su beždžione. Tada ji gali naudoti šiuos modelius, kad atpažintų naujus gyvūnų vaizdus, kurių dar niekada nebuvo mačiusi.

Tačiau giluminio mokymosi modeliai taip pat yra labai trapūs. Kadangi vaizdo atpažinimo sistema remiasi tik pikselių raštais, o ne konceptualesniu supratimu apie tai, ką mato, nesunku ją apgauti, kad mato ką nors visiškai kitokio - paprasčiausiai tam tikru būdu sulaužant modelius. Klasikinis pavyzdys: pridėkite šiek tiek triukšmo prie pandos vaizdo ir sistema klasifikuoja jį kaip giboną beveik 100 procentų tikrumu. Šis triukšmas bus priešiškas puolimas.

Image
Image

Reklaminis vaizdo įrašas:

Kelerius metus mokslininkai stebėjo šį reiškinį, ypač kompiuterinio matymo sistemose, iš tikrųjų nežinodami, kaip atsikratyti tokių pažeidžiamumų. Iš tikrųjų praėjusią savaitę didelėje dirbtinio intelekto tyrimų konferencijoje - ICLR - pristatytas darbas verčia abejoti priešiškų išpuolių neišvengiamumu. Gali atrodyti, kad nesvarbu, kiek panda vaizdų pateiksite į vaizdų klasifikatorių, visada atsiras tam tikras pasipiktinimas, dėl kurio jūs sugadinsite sistemą.

Naujas MIT darbas rodo, kad neteisingai galvojome apie priešininkų išpuolius. Užuot sugalvoję būdų surinkti daugiau kokybės duomenų, kurie teikia sistemą, turime iš esmės pergalvoti savo požiūrį į jos mokymą.

Darbas tai parodo atskleisdamas gana įdomią prieštaringų pavyzdžių savybę, kuri mums padeda suprasti, kodėl jie veiksmingi. Koks triukas: iš pažiūros atsitiktinis triukšmas ar lipdukai, painiojantys nervų tinklą, iš tikrųjų naudoja labai taškius, subtilius modelius, kuriuos vizualizacijos sistema išmoko stipriai susieti su konkrečiais objektais. Kitaip tariant, mašina negenda, kai pamatome giboną, kur matome pandą. Tiesą sakant, ji mato įprastą, žmonėms nematomą pikselių išdėstymą, kuris treniruočių metu daug dažniau pasirodė paveikslėliuose su gibonais nei nuotraukose su pandomis.

Mokslininkai tai parodė eksperimentu: jie sukūrė šunų vaizdų duomenų rinkinį, kuris buvo pakeistas taip, kad standartinis vaizdų klasifikatorius juos klaidingai atpažino kaip kates. Tada jie pažymėjo šiuos vaizdus „katėmis“ir panaudojo jiems nuo pat pradžių treniruoti naują nervų tinklą. Po mokymų jie parodė realius kačių nervų tinklo vaizdus, ir ji teisingai juos atpažino kaip kates.

Tyrėjai iškėlė hipotezę, kad kiekviename duomenų rinkinyje yra dviejų tipų koreliacijos: modeliai, kurie iš tikrųjų koreliuoja su duomenų prasme, pavyzdžiui, šnabždesiai kačių vaizduose ar kailio spalva panda vaizduose ir modeliai, kurie egzistuoja treniruočių duomenyse, bet nėra skleidžiami. į kitus kontekstus. Šios paskutinės „klaidinančios“koreliacijos, vadinkime jas, yra naudojamos varžovų išpuoliuose. Atpažinimo sistema, išmokyta atpažinti „klaidinančius“modelius, juos randa ir mano, kad mato beždžionę.

Tai mums sako, kad jei norime pašalinti priešiškos atakos riziką, turime pakeisti savo modelių treniravimo būdą. Šiuo metu nervų tinklui leidžiame pasirinkti koreliacijas, kurias jis nori naudoti objektams atpažinti paveikslėlyje. Todėl mes negalime kontroliuoti rastų koreliacijų, ar jos tikros, ar klaidinančios. Jei vietoj to išmokytume savo modelius atsiminti tik realius modelius, kurie yra susieti su reikšmingais taškais, teoriškai būtų įmanoma sukurti gilaus mokymosi sistemas, kurių nebūtų galima supainioti.

Kai mokslininkai išbandė šią idėją, mokydami savo modelį, naudodami tik realias koreliacijas, jie iš tikrųjų sumažino jos pažeidžiamumą: ja buvo manipuliuojama tik 50% laiko, o modeliu, treniruotu pagal tikrąsias ir melagingas koreliacijas, buvo manipuliuojama 95% laiko.

Trumpai tariant, jūs galite apsiginti nuo priešiškų išpuolių. Bet mums reikia daugiau tyrimų, kad juos visiškai pašalintume.

Ilja Khel