Pirmasis žingsnis į skaitmeninį balsą: mokslininkai sukūrė implantą, leidžiantį kalbėti mintimis
Stephenas Hawkingas, britų fizikas ir bene garsiausias žmogus, sergantis amiotrofine lateraline skleroze (ALS), su pasauliu bendraudavo per jutiklį akinių rėmelyje. Šis jutiklis fiksuodavo vos pastebimus jo skruosto raumens judesius, kurie leisdavo po vieną simbolį pasirinkti ekrane. Kai sakinys būdavo užbaigtas, vidutiniškai vienas žodis per minutę, tekstas paversdavo garsą balso sintezatorius DECtalk TC01. Būtent jis sukūrė garsųjį Hawkingo „robotinį“ balsą[1].
Tačiau nuo 2018-ųjų, kai mirė S. Hawkingas, technologijos stipriai pažengė. Naujausi smegenų–kompiuterio sąsajos (BCI) įrenginiai leidžia mintis tiesiogiai paversti tekstu arba net balsu. Deja, šios sistemos ilgai pasižymėjo dideliu vėlavimu, ribotu žodynu ir nesugebėjo perteikti balso niuansų, tokių kaip tonas ar intonacija.
Dabar Kalifornijos universiteto Deivise (UC Davis) mokslininkų komanda sukūrė naują nervų protezą, kuris realiu laiku verčia smegenų signalus į garsus: nuo fonemų iki žodžių. Tai gali būti pirmasis tikras žingsnis į visiškai skaitmeninį balso traktą.
Ne tik tekstas: kaip veikia garsą generuojanti kalbos neuroprotezė
„Mūsų pagrindinis tikslas yra sukurti lankstų kalbos neuroprotezą, kuris leistų paralyžiuotam žmogui kalbėti kuo laisviau, pačiam pasirinkti kalbos tempą, išreikšti emocijas per intonaciją“, sako Maitreyee Wairagkar, neuroprotezavimo tyrėja ir projekto vadovė. Siekti tokio tikslo buvo nelengva, nes teko spręsti beveik visas iki šiol BCI sistemoms iškilusias problemas.

Pirmiausia, dauguma ankstesnių įrenginių smegenų signalus vertė į tekstą. 2023 m. Stanfordo universiteto tyrėjų komanda, vadovaujama Francio R. Willett’o, pasiekė apie 75 proc. tikslumą – trys iš keturių žodžių būdavo iššifruoti teisingai. Tačiau tai vis dar per mažai, kad sistema būtų tinkama kasdieniam bendravimui. „Buvo džiugu, bet nepakankama“, sako Sergey’us Stavisky’is, UC Davis neurobiologas ir vyresnysis tyrimo autorius[2].
Po metų ta pati UC Davis komanda, vadovaujama Stavisky’io, paskelbė pasiekusi 97,5 proc. tikslumą verčiant mintis į tekstą. „Beveik visi žodžiai buvo teisingi, bet kalbėti tekstu vis tiek riboja. Kartais norisi tarti garsą. Galima įsiterpti, padainuoti, pavartoti žodžius, kurių nėra žodyne“, aiškina jis.
Tačiau visos šios sistemos kentėjo nuo ilgo vėlavimo: sakiniai atsirasdavo ekrane tik po to, kai vartotojas mintyse juos užbaigdavo, o vėliau tekdavo dar laukti, kol tekstas bus paverstas garsu. Be to, žodynas buvo ribotas: vos apie 1300 žodžių. Net paprastas kavinės pavadinimas už kampo galėjo būti nepasiekiamas.
Štai kodėl Wairagkar su kolegomis nusprendė ne šifruoti žodžius, o versti smegenų signalus tiesiai į garsus, ir daryti tai realiu laiku.
Balsas iš galvos: garsai, emocijos ir net daina: be jokio kalbėjimo
Eksperimente dalyvavo pacientas, kodu pavadintas T15. Tai 46 metų vyras, sergantis pažengusia ALS. „Jis stipriai paralyžiuotas ir kalba labai neaiškiai. Pažįstu jį jau keletą metų, bet suprantu vos 5 proc. to, ką jis sako“, pasakojo neurochirurgas David’as M. Brandman’as, tyrimo bendraautorius. Iki šiol T15 naudodavo giroskopinę pelę galvos judesiams ir kursoriui valdyti ekrane.
Pirmajai sistemai naudoti 256 mikroelektrodai, implantuoti į smegenų žievės sritį, atsakingą už kalbos raumenų valdymą. Wairagkar sistemoje tie patys elektrodai fiksuoja atskirų neuronų signalus.
Tai aukščiausios raiškos informacija, kokią tik galima gauti iš žmogaus smegenų. Šie signalai siunčiami į neuroninį dekoderį, DI algoritmą, kuris išskiria kalbos parametrus: aukštį, balsingumą, ritmą. Tada jie perduodami į „vokoderį“, balso sintezatorių, kuris atkūrė paciento natūralų balsą pagal ankstesnius įrašus.
Sistema veikia su vos 10 milisekundžių vėlavimu: kalbos garsai atsiranda praktiškai iškart, kai tik smegenyse kyla mintis. Dar svarbiau tai, kad sistema neveikia su iš anksto numatytu žodynu” pacientas gali tarti bet ką: ne tik žodžius, bet ir jausmines frazes kaip „uh“, „hmm“ ar „ai“. Intonacija leidžia užduoti klausimus ar net padainuoti trumpą melodiją. Balsas tampa tikras, su visomis kalbos išraiškomis, o ne tik sintetiniais skiemenimis.

Kas toliau: sistema veikia, bet kol kas dar ne kasdieniam bendravimui
Norėdami įvertinti, kaip gerai veikia naujasis implantas, tyrėjai atliko du bandymus. Pirmame dalyviai turėjo išklausyti įrašą ir iš šešių panašaus ilgio sakinių atspėti, kuris buvo pasakytas – visi pataikė teisingai, 100 proc. tikslumas.
Tačiau atvirame bandyme, kur klausytojai nežinojo galimų sakinių, buvo suprasta tik kiek daugiau nei pusė žodžių: klaidų lygis siekė 43,75 proc. Tai žymiai geriau nei paciento kalbos be įrenginio supratimas, kur tikslumas tesiekė 3,6 proc., bet dar nepakanka sklandžiam kasdieniam naudojimui.
„Kol kas tai dar nėra paruošta laisvam pokalbiui. Tai įrodymas, kad sistema veikia“, sako Stavisky’is. Jo manymu, vienas pagrindinių tolesnių žingsnių: padidinti elektrodų skaičių. „Yra startuolių, kuriančių sistemas su daugiau nei tūkstančiu elektrodų. Mes pasiekėme tai su 250, įsivaizduokite, ką galima padaryti su 2000“, kalba jis.
Tokį tikslą kelia ir startuolis „Paradromics“ iš Teksaso, siekiantis FDA patvirtinimo klinikiniams neuroprotezės tyrimams. Jie naudoja 1600 elektrodų sistemą ir jau viešai paskelbė planuojantys testuoti kalbėjimą balsu. Tų bandymų vadovas, tas pats neurochirurgas David’as Brandman’as, o tyrimai vyks UC Davis universitete.
Jeigu šios sistemos veiks taip, kaip tikimasi, paralyžiuoti žmonės galės ne tik bendrauti mintimis, bet ir kalbėti, dainuoti bei išreikšti save balsu: greitai, gyvai, žmogiškai.