Kaip Atskleidžiamos „Voynich“rankraščio Paslaptys: Tyrimas - Alternatyvus Vaizdas

Turinys:

Kaip Atskleidžiamos „Voynich“rankraščio Paslaptys: Tyrimas - Alternatyvus Vaizdas
Kaip Atskleidžiamos „Voynich“rankraščio Paslaptys: Tyrimas - Alternatyvus Vaizdas
Anonim

Kas slepia sensacingas naujienas apie Voynicho rankraštį ir apie rusų mokslininkus, ar galima iš teksto tiksliai nustatyti kalbą, kiek adekvatūs matematikai dirba kalbotyros „lauke“.

Balandžio 19 d. Rusijos žiniasklaida skleidė žinias apie „epochinį“Rusijos matematikų atradimą: mokslininkai, taikydami naująjį metodą, ne tik įrodė garsiojo „Voynicho rankraščio“prasmingumą, bet ir sugebėjo nustatyti, kad jis buvo parašytas dviem kalbomis, išskyrus balsių laiškus.

„Voynich“rankraštis yra iliustruotas viduramžių rankraštis, kurį 1912 m. Įsigijo antikvariatas Wilfredas Voynichas. Sukurtas XV amžiuje (remiantis pergamento radiacinės anglies analize - tačiau dauguma mokslininkų šiuo metu paties teksto nelaiko vėlesniu klastojimu), jis parašytas nežinoma kalba, naudojant nežinomą abėcėlę. Sprendžiant iš iliustracijų, tekstas susideda iš teminių blokų: botanikos, astronomijos, farmakologijos ir kitų. Dėl teksto dekodavimo sudėtingumo Voynicho rankraštis tapo „šventuoju graliu“kriptografams ir daugelio tyrimų objektu, įskaitant tuos, kurie naudoja „Big Data“metodus.

Pranešimas apie rankraštį buvo kažkoks sensacingas. Tai iškart sukėlė tam tikrą susirūpinimą. „Prieš tai visi bandymai iššifruoti unikalų dokumentą ir net tiesiog suprasti, ar tai prasmingas tekstas, nepavyko. 600 metų nenaudingų pastangų!.. CŽV ir NSA kriptografai, superkompiuteriai ir net „okultinių mokslų“daktarai pasirašė visišką jų impotenciją. Naujausiame kriptologo Gordono Ruggo iš Keele universiteto (JK) pranešime rašoma: „Voynicho rankraštis yra netikras. Tokį „sudėtingą tekstą“lengva sukonstruoti visiems, kurie yra susipažinę su paprastais kopijavimo metodais “, - sakoma straipsnyje.

Pirma, teksto prasmingumas buvo pripažintas dar aštuntajame dešimtmetyje ir kelis kartus patvirtintas 2010-ųjų metų tyrimuose, apie kuriuos pakankamai išsamiai buvo rašoma net ir vidaus žiniasklaidoje. Antra, naujienoms pateiktas atradimas buvo pateiktas tik instituto spaudinio pavidalu, o ne straipsnyje tarptautiniame recenzuojamame žurnale (spaudinys taip pat buvo paskelbtas dar 2016 m.).

Šios medžiagos pristatymo keistenybės privertė mus ieškoti paaiškinimų pirmiausia iš tyrimo autoriaus, o paskui pas nepriklausomus ekspertus - kalbininkus, kurie dirba su statistiniais ir matematiniais metodais, taip pat su senųjų scenarijų dekodavimu.

Parašyti formulę lengva, tačiau atlikti skaitinę analizę yra labai brangu

Reklaminis vaizdo įrašas:

Pirma, trumpai apie tyrimo esmę. Išankstinio spaudinio autoriai, Maskvos fizikos ir technologijos instituto ir Rusijos mokslų akademijos taikomosios matematikos instituto matematikai remiasi savo darbais, pagal kuriuos „teksto simbolių pasiskirstymas dažniu yra stabili ne autoriaus ar teksto subjekto, o kalbos savybė“. Tai yra, naudojant rinkinį matematinių įrankių pagalba galima nustatyti, kokia kalba jis parašytas, dėl to, kad kiekviena kalba turi savo būdingą „profilį“(Hursto rodiklio pasiskirstymą). Toliau, remdamiesi šiais metodais, mokslininkai nustatė, kad rankraščio tekstas buvo parašytas kelių kalbų mišiniu. Tuo pačiu metu prie jo buvo pridėti klaidingi tarpai ir pašalinti balsių garsus žymintys simboliai.

Pagrindinis tyrimo autorius Jurijus Orlovas (IPM RAS ir MIPT) pabrėžė, kad Voynicho rankraštis visai nėra pagrindinis jų darbo tikslas. „Sensacingas“rankraštis yra tik matematinio metodo, kaip kalbas atpažinti iš teksto, iliustracija - problema iš tikrųjų yra mašininiam mokymuisi “, - sakė Orlovas.

Pats rankraštis mums visiškai neįdomus. Mokslas konkrečiai nurodo kalbų statistiką. Per jį galime suprasti, kokia kalba parašytas šis rankraštis. Bet ne tai, kas ten parašyta, tai yra svarbus dalykas. - Jurijus Orlovas. MIPT ir Taikomosios matematikos institutas, pavadintas M. V. Keldysh

Kalbėdamas apie darbe naudojamą kalbinį metodą, Orlovas pažymi, kad pati raidžių derinių dažnio analizė tekstuose yra gerai žinomas dalykas. Tačiau kalbininkams Hursto rodiklis menkai žinomas, nes jį sunku apskaičiuoti net matematiniu požiūriu. Pačią formulę lengva parašyti, tačiau skaitinė analizė yra labai brangi. Už tai superkompiuteris, esantis institute, pavadintame M. V. Keldysh, pabrėžia matematikas.

Indoeuropiečių kalbų pasirinkimas analizei paaiškinamas tuo, kad jos visos yra labai panašios, sako Orlovas. Matematikų sukurti rodikliai leidžia lengvai atskirti kalbas toje pačioje kalbų grupėje, bet ne tarp šeimų. Žinoma, teoriškai įmanoma atlikti tą patį darbą su kitomis grupėmis (Uralo, Altajaus ar kitomis), tačiau analizės vertė yra jos išsamumas, įsitikinęs Orlovas. Indoeuropiečių kalbų atveju nėra sunku surašyti kiekvienos kalbos tekstų korpusą, sunkiau tai padaryti su kitomis šeimomis.

Grįždamas prie Voynicho rankraščio, Orlovas pažymėjo, kad jis ir jo kolegos pateikė penkis hipotezės apie kalbų mišinį rankraštyje ir išbraukimą įrodymus (logaritminį raidžių dažnio išdėstymo tekste tekstą viena ir keliomis kalbomis, Hursto rodiklio pasiskirstymą, sąlyginių tikimybių matricos spektrinį portretą ir kitus). raidės balsiams. Jie pabrėžtinai atsiriboja nuo „hangouto aplink rankraštį“, tačiau pateikė unikalų rezultatą - atvirą metodą, statistinę analizę su patikimumo įvertinimu, kurį galima patikrinti savarankiškai.

Išvada sumenkinama dėl to, kad mes nesuprantame, kokią medžiagą jie sukūrė ir ką jie patikrino savo formulę

Pati prielaida, kad Voynicho rankraščio tekste nėra balsių raidžių, su neteisingai išdėstytais tarpais, yra graži ir gera, pažymi kalbininkė Evgenija Korovina, užsiimanti matematine kalbos statistika (Kalbų institutas, Rusijos mokslų akademija). Anksčiau niekas tokios hipotezės nepateikė. Pavyzdžiui, ji gražiai paaiškina, kodėl yra mažiau raidžių, nei būtų galima tikėtis iš europinio teksto. Bet problema ta, kad tyrimo autoriai net nenurodė, kuriuos tekstus skirtingomis kalbomis jie lygino ir kokia buvo šių testų apimtis. Išankstiniame spaudinyje minimas didžiulis kalbų skaičius. Todėl tyrimas neatkuriamas: jei vartojate savavališkus tekstus tomis pačiomis kalbomis, tai nėra faktas, kad pasirodys tie patys modeliai.

Senovės kalbų tyrimo metodų specialistė Maria Molina (Lingvistikos institutas, RAS) sutinka su Korovina. Nauji kalbinių duomenų apdorojimo metodai, jos nuomone, padeda gauti informacijos apie tai, kas anksčiau buvo tyrinėtojams uždaryta. Tačiau nepakankamai gerai parengta įvesties medžiaga dažnai diskredituoja net ir pačius geriausius duomenų apdorojimo būdus.

Išvada nuvertinta tuo, kad mes nesuprantame, iš kokios medžiagos jie ją gavo ir kokiu pagrindu išbandė savo formulę. Savo medžiagai tikrai žinau, kad yra nedidelė metodologinė klaida - ir gaunu kritiškai skirtingus skaičius. - Marija Molina. Kalbotyros institutas RAS

„Šiukšlių įvežimas - šiukšlių išvežimas“, - priduria Molina (GIGO yra informatikos principas, kuris reiškia, kad neteisingi įvesties duomenys duos neteisingus rezultatus, net jei pats algoritmas yra teisingas, - atkreipkite dėmesį į Indicator. Ru).

Statistiniai metodai vis dar yra rezultatų, o ne rezultatų užuominos

Albertas Davletšinas (Rusijos valstybinio humanitarinio universiteto Lyginamųjų tyrimų instituto Kalbų palyginamųjų tyrimų centro darbuotojas, tyrinėja majų ir polineziečių kalbas) kalbėjo dar aštriau. Jei ruošinio autoriai neketino iššifruoti Voynicho rankraščio, kodėl jie tai daro? Ir toliau, jei kalbėsime konkrečiai apie nežinomo rašymo iššifravimą, kyla klausimas po klausimo: „Nėra pradinių duomenų apie rašymą - kokio tipo laiškas? Kaip gaunami skirtingi užrašai? Kiek simbolių? Kuo grindžiamos esamos prielaidos apie rašymo pobūdį? Koks yra žodžio ilgis, atskirtas tarpais ir be tarpų? Ką reiškia tarpai? Kiek žodynas yra didelis? Koks parašų ir piešinių santykis?

Iš pradžių paaiškėja, kad tekstas yra daniškas ir tik daniškas (ir tai istoriškai neįmanoma, apie kurį kūrinyje nėra nė žodžio). Tada paaiškėja, kad tekstas yra dviem nežinomomis kalbomis (patikrinimas šiame etape pasirodo neįmanomas ir priimamas tikėjimu). Be to, yra daug konservatyvių būdų parodyti, kad du (dideli) puslapiai parašyti viena raide, bet skirtingomis kalbomis, nesinaudojant sudėtingais matematiniais modeliais. Galiausiai, jei iš teksto pašalinamos balsės, kiek tai patvirtina standartiniai, seniai žinomi metodai (pavyzdžiui, Sukhotinas, Ševorošinas ir Ventris)?"

Davletshinas taip pat kritikuoja tokio pobūdžio tyrimams būdingą nejautrumą filologijai ir istorijai:

Ką matau tekste: dažnai yra žmonių, kurie nori paimti šaltinį X ir pamiršta, kad jis yra šaltinis ir egzistuoja tam tikrame istoriniame, įskaitant kalbinį, kontekste, ir kažkaip jame suskaičiuoja. Įdomi hipotezė, kad rankraštyje yra daugiau nei viena kalba. Bet kažkaip galėtum tai parodyti žmogiškai. Statistiniai metodai vis dar yra rezultatų, o ne rezultatų užuominos. -Albert Davletshin. Lingvistinių lyginamųjų studijų centras, IVKA RSUH

Nėra kriterijaus, kaip atskirti įdomius rezultatus nuo baisių

Subalansuotesnės pozicijos laikėsi lyginamosios istorinės kalbotyros (RSUH) ekspertas Georgijus Starostinas. Jį labiau domino, kokie nauji matematiniai metodai yra naudingi sprendžiant kalbininkų problemas. „Straipsnyje pateiktas modelis daro keistą įspūdį. Viena vertus, atrodo, kad jis priskiriamas „aklųjų“kategorijai, analizuojant teksto duomenis be jokių išankstinių sprendimų dėl abėcėlės struktūros (pavyzdžiui, dvibalsiai, kaip ir angliškas ch, sh, turėtų būti laikomi dviejų raidžių deriniais, nors tai iš tikrųjų yra viena garsas). Kita vertus, iš lyginamų eilučių išmetami balsiai, kuriuose, pasak teksto autorių, yra mažiau informacijos ir veikiau priduriama triukšmo. Apskritai testų bazė yra akivaizdžiai labai maža, neįmanoma kalbėti apie kažką esminio tiek daugeliu kalbų “.

Indoeuropiečių ir uralo kalbų palyginimo rezultatai, pateikti straipsnio 3 lyginamojoje lentelėje, ypatingo optimizmo Starostinui nekelia. Kai kurie kalbų artumo laipsnio rodikliai užfiksuoti gerai (pavyzdžiui, vokiečių vidaus ar romano ryšiai), kai kurie blogai (pavyzdžiui, metodika nebeidentifikuoja indoeuropiečių šeimos). Svarbiausia yra tai, kad nėra kriterijaus, kaip atskirti įdomius rezultatus nuo baisių. Geriausiu atveju metodas leidžia išskirti mažas kalbines grupes (nors net ir čia neveikia tarp artimai susijusių suomių ir estų), tačiau visas šias grupes galima patikimai identifikuoti be jos.

3 lentelė iš spaudinio, kurioje pateikiami rezultatai, lyginantys indoeuropiečių ir uralo kalbas. Ta pati spalva lentelėje. Išskiriamos 3 porų artimos kalbų grupės (sutvarkytų dažnių pasiskirstymo tekstuose be balsių L1 normos prasme). Kai kurios netikėtai artimos kalbų poros pažymėtos raudonai, pavyzdžiui, vokiečių / vengrų, anglų / estų, lotynų / baskų ir graikų / suomių. Išankstinio spaudinio autoriai: Arutyunov A. A., Borisov L. A., Zenyuk D. A., Ivchenko A. Yu, Kirina-Lilinskaya E. P., Orlov Yu. N., Osminin K. P., Fedorov S. L., Shilin S. A
3 lentelė iš spaudinio, kurioje pateikiami rezultatai, lyginantys indoeuropiečių ir uralo kalbas. Ta pati spalva lentelėje. Išskiriamos 3 porų artimos kalbų grupės (sutvarkytų dažnių pasiskirstymo tekstuose be balsių L1 normos prasme). Kai kurios netikėtai artimos kalbų poros pažymėtos raudonai, pavyzdžiui, vokiečių / vengrų, anglų / estų, lotynų / baskų ir graikų / suomių. Išankstinio spaudinio autoriai: Arutyunov A. A., Borisov L. A., Zenyuk D. A., Ivchenko A. Yu, Kirina-Lilinskaya E. P., Orlov Yu. N., Osminin K. P., Fedorov S. L., Shilin S. A

3 lentelė iš spaudinio, kurioje pateikiami rezultatai, lyginantys indoeuropiečių ir uralo kalbas. Ta pati spalva lentelėje. Išskiriamos 3 porų artimos kalbų grupės (sutvarkytų dažnių pasiskirstymo tekstuose be balsių L1 normos prasme). Kai kurios netikėtai artimos kalbų poros pažymėtos raudonai, pavyzdžiui, vokiečių / vengrų, anglų / estų, lotynų / baskų ir graikų / suomių. Išankstinio spaudinio autoriai: Arutyunov A. A., Borisov L. A., Zenyuk D. A., Ivchenko A. Yu, Kirina-Lilinskaya E. P., Orlov Yu. N., Osminin K. P., Fedorov S. L., Shilin S. A.

Galiausiai yra įdomi mintis nustatyti genetinę kalbos ypatybę pasiskirsčius Hursto laipsnio rodiklį ir, galbūt, net iki tam tikro mokslo taško. Bet tam reikės apdoroti daug tekstų skirtingomis kalbomis. Iškart iškyla problema: daugybė kalbų nerašytos, o kiek teisinga abėcėlės įrašymo sistemas palyginti su fonetinėmis transkripcijomis, lieka neaišku. Iš šios idėjos praktinės prasmės nebus labai mažai, įsitikinusi Starostinas. Geriausiu atveju tai tikrai galima pritaikyti tokiems įvykiams kaip Voynicho rankraštis, kai yra hipotezė, kad kai kurios kalbos, turinčios standartinį abėcėlinį raštą, yra šifruojamos pagal tam tikrus principus (pavyzdžiui, išbraukiant balses ir pan.). Tačiau tokių įvykių pasaulyje yra labai nedaug.

Apibendrinant

Kas yra apatinėje eilutėje? Diskusija apie IPM ir MIPT tyrimus atskleidė gilų atotrūkį tarp kalbinės bendruomenės (net ir tų, kurios naudoja statistinius metodus) ir „pašalinių asmenų“kalbotyros specialistų, nusprendusių pritaikyti savo matematines priemones kalbinei medžiagai, atžvilgiu.

Tai, kad matematikai nenori dirbti kartu su kalbininkais, sukelia ne tik grubias klaidas, kurios vėliau migruoja į žiniasklaidą (pavyzdžiui, baskų kalba spaudinyje vadinama indoeuropietiška, yra frazė „balsių raidės“). Modelių grožį ir superkompiuterių skaičiavimo galią iš tikrųjų nuvertina klaidos patekimo vietoje. Vėlgi, norint ir atvirai bendraujant su kitos disciplinos kolegomis, šių klaidų būtų galima lengvai išvengti.

Pačią „Voynich“rankraštį žiūrėkite čia.