Mokslininkai Sukūrė Savarankiško Mokymosi PG, Galinčią žaisti Visus žaidimus - Alternatyvus Vaizdas

Turinys:

Mokslininkai Sukūrė Savarankiško Mokymosi PG, Galinčią žaisti Visus žaidimus - Alternatyvus Vaizdas
Mokslininkai Sukūrė Savarankiško Mokymosi PG, Galinčią žaisti Visus žaidimus - Alternatyvus Vaizdas

Video: Mokslininkai Sukūrė Savarankiško Mokymosi PG, Galinčią žaisti Visus žaidimus - Alternatyvus Vaizdas

Video: Mokslininkai Sukūrė Savarankiško Mokymosi PG, Galinčią žaisti Visus žaidimus - Alternatyvus Vaizdas
Video: Visa tiesa apie mobiliuosius žaidimus 2024, Balandis
Anonim

Revoliucinės savarankiško mokymosi dirbtinio intelekto sistemos „AlphaGo Zero“kūrėjai paskelbė apie naujos šios mašinos versijos sukūrimą, kuri gali savarankiškai išmokti žaisti bet kokį stalo žaidimą ir mušti žmogų. Jos aprašymas buvo pristatytas žurnale „Science“.

- „Salik.biz“

Proto gylis

„AlphaGo AI“sistemą 2014 m. Pabaigoje sukūrė Davidas Silveris ir jo kolegos, o jos darbas buvo „išbandytas“su Europos čempionu Fan Hui, kuris mašinai pralaimėjo visas penkias rungtynes. 2016 m. Kovo mėn. „AlphaGo“nugalėjo „Go“pasaulio čempioną Lee Sedolį penkerių rungtynių serijoje, iš kurių tik viena baigėsi žmogaus pergale.

Sidabras ir jo kolegos sugebėjo pasiekti šių sėkmių, kurdami savo AI, remdamiesi ne vienu, o dviem neuroniniais tinklais vienu metu - specialiais algoritmais, imituojančiais žmogaus smegenų neuronų grandinių darbą. Vienas iš jų yra atsakingas už esamos padėties lentoje įvertinimą, o antrasis naudojasi pirmojo tinklo parengtais analizės rezultatais, kad galėtų pasirinkti kitą žingsnį.

Kitas loginis „AlphaGo“kūrimo žingsnis buvo visų esamų neuroninių tinklų ir dirbtinio intelekto sistemų pagrindinio trūkumo pašalinimas - poreikis išmokyti juos, ką jie turėtų daryti naudodamiesi didžiuliais asmens rankomis tvarkomais duomenų archyvais arba tiesiogiai dalyvaujant asmeniui, kaip tai atsitiko pirmuosiuose etapuose. „AlphaGo“plėtra.

Sidabras ir jo komanda išsprendė šią problemą sukūrę iš esmės naują neuroninį tinklą, pagrįstą vadinamaisiais sustiprinimo mokymosi algoritmais. Šis neuroninis tinklas, skirtingai nei jo žvaigždinis pirmtakas, kuris iš pradžių buvo mokomas žaisti žaidimus su savanoriais ir turėjo keletą integruotų primityvių žaidimų strategijų, savo darbą pradėjo kaip absoliutus pradedantysis, turintis nulinę žinių bazę.

Kitaip tariant, ji žinojo tik Go žaidimo taisykles, pradines ir pergalės sąlygas, tada kompiuteris savarankiškai išmoko žaisti šią senovės kinų strategiją, žaisdamas su savimi ir veikdamas bandydamas ir suklydęs. Vienintelis jos darbo apribojimas buvo maksimalus laikas galvoti apie žingsnį - tai buvo maždaug 0,4 sekundės.

Reklaminis vaizdo įrašas:

Po kiekvieno tokio žaidimo AI sistema išanalizavo visus savo judesius ir prisiminė tuos, kurie priartino vieną iš jos „pusių“prie pergalės, ir sudarė savotišką „juodąjį sąrašą“tų žingsnių, kurie atvirai pralaimėjo. Naudodamas šiuos duomenis, neuroninis tinklas atstatė save, pamažu pasiekdamas tokį lygį, kokį pasiekė pirmoji „AlphaGo“versija prieš žaidimų seriją su Lee Sedoliu.

Perėjimas prie savarankiško mokymosi algoritmų ne tik leido „AlphaGo Zero“pranokti savo pirmtako lygį ir aplenkti jį rezultatu 100-0, bet ir patobulino daugelį kitų savo darbo aspektų. Visų pirma, jos mokymo procesas užtruko tik tris dienas ir apie penkis milijonus žaidimų, o tai buvo mažesne tvarka nei prašymai pagal pirmąją AI versiją.

Kelias į meistriškumą

Sėkmingas eksperimentų su „AlphaGo Zero“užbaigimas paskatino Sidabrą ir jo komandą apsvarstyti, ar panašus neuroninis tinklas galėtų būti panaudotas norint iškovoti čempiono karūną kitų rūšių strategijos ir stalo žaidimuose.

Norėdami tai padaryti, mokslininkai į „AlphaGo Zero“įtraukė dar vieną naują elementą - euristinius algoritmus atsitiktinei sprendimų paieškai, taip pat kodą, kuriame buvo atsižvelgiama į kai kurių žaidimų trūkumą. Be to, naujoji alfa versija nuolat tobulino savo struktūrą, o ne buvo atnaujinama tokiais etapais, kaip ankstesnė.

Šie palyginti paprasti pakeitimai, kaip parodė tolesni eksperimentai, žymiai padidino šios dirbtinio intelekto sistemos savaiminio mokymosi greitį ir pavertė ją universalia mašina, galinčia žaisti visomis lentos strategijomis.

Mokslininkai išbandė jo darbą su trijų rūšių žaidimais - go, įprasta šachmatais ir jų japoniška įvairove, shogi. Visais trim atvejais naujasis „Silver“smegenų močiutės lygis pasiekė mažiau nei milijoną žaidimų ir pasiekė beveik žmogaus selektyvumą pasirenkant galimus judesius vos per 9–12 valandų šachmatų treniruotėse ir 13 dienų - per dieną.

Anksčiau ji mušė pačias moderniausias kompiuterines programas, žaidžiančias šiuos žaidimus - „Stockfish“algoritmas atsisakė ketvirtosios „AlphaZero“treniruočių valandos, o dabartinis „shogi“čempionas Elmas truko tik dvi valandas. Pagaliau pirmoji „AlphaGo“versija „anūkui“pradėjo duoti maždaug per 30 valandų jo mokymo.

Kitos „AlphaZero“aukos, kaip pažymėjo mokslininkai, gali būti „tikri“kompiuteriniai žaidimai, tokie kaip „Starcraft II“ir „Dota 2.“Čempionatas tokiose esporto disciplinose, jų manymu, atvers kelią savarankiško mokymosi AI įsiskverbti į mažiau formalizuotas mokslo ir kultūros sritis. ir technologijos.