Vilmantas AUŠRA: Ar dirbtinio intelekto sistemos tikrai supranta, ką (kaip žmonės) vertiname?

Basakojis judesio analizės, bėgimo technikos ir fizinio treniravimo treneris – Vilmantas Aušra. Autoriaus nuotrauka

Ką daryti, jei patys vertintojai yra klaidingi?

Naujame tyrime analizuojami „atlygio/vertinimo modeliai“, kurie padeda išmokyti didelius kalbos modelius (pvz., „ChatGPT“) atitikti žmogaus pageidavimus. Šie atlygio/vertinimo modeliai — tai nematomi teisėjai, užkulisiuose skiriantys balus dirbtinio intelekto atsakymams — didesnius, jei jie atrodo naudingi ar saugūs, mažesnius, jei neatitinka mūsų lūkesčių. Tačiau ką daryti, jei patys vertintojai yra klaidingi?

Mokslininkai atidžiai išnagrinėjo dešimt populiarių atlygio modelių, pateikdami jiems visus įmanomus vieno žodžio atsakymus į morališkai ar socialiai įtemptus klausimus. Tai, ką jie nustatė, nustebino ir kartais sukėlė nerimą. Nors modeliai buvo apmokyti tam pačiam tikslui, jie dažnai labai nesutapdavo, pirmenybę teikė tam tikrų tipų žodžiams, priklausė nuo to, kaip suformuluoti klausimai (kaip ir žmonės), ir buvo linkę pirmenybę teikti įprastiems žodžiams, o ne retesniems, potencialiai tikslesniems.

Dar blogiau, kai kurie modeliai pasižymėjo subtiliu, bet nuosekliu šališkumu, susijusiu su tapatybe — problemomis, kurios galėjo netyčia įsivelti stengiantis juos padaryti „nekenksmingus“. Šios paslėptos keistenybės gali nejučia nulemti dirbtinio intelekto sistemų, kuriomis kasdien naudojasi milijonai žmonių, elgseną.

Trumpai tariant, nors atlygio modeliai turi atspindėti mūsų vertybes, jie gali tai daryti netobulai — ir tokiais būdais, kurie nusipelno daug atidesnės analizės.

Pasekmės:

1. Atlygio modeliai nėra pakeičiami vieni kitais

Netgi pagal panašius tikslus apmokyti modeliai gali duoti labai skirtingus rezultatus. Tai paneigia įprastą prielaidą, kad atlygio modelius galima paprasčiausiai pakeisti arba naudoti pakartotinai ir tai nesukels jokių pasekmių. Kiekvienas modelis pasižymi savais ypatumais ir verčių kodais.

2. Raginimo įrėminimas daro didelę įtaką rezultatams

Modelių rezultatai skiriasi priklausomai nuo to, kaip suformuluotas klausimas — tai atspindi žmogaus kognityvinius šališkumus, pavyzdžiui, įrėminimo efektą. Tai rodo, kad derinimo procesas gali būti ne toks patikimas, kaip atrodo, ir juo gali būti lengvai manipuliuojama arba jis gali būti neteisingai suprastas.

3. Šališkumas tam tikrų tapatybių atžvilgiu

Tyrimas atskleidžia nenumatytus šališkumus tam tikrų tapatybės grupių atžvilgiu arba jų naudai, galbūt atsiradusius „nekenksmingumo“ derinimo metu. Tai kelia etinių problemų: modeliai gali išmokti vengti tam tikrų temų, ignoruoti marginalizuotus balsus arba stiprinti žalingus stereotipus — net jei tai daroma netyčia.

4. Dažnų ženklų pervertinimas

Modeliai neproporcingai teikia pirmenybę dažniems ar dažnai vartojamiems žodžiams, todėl atsakymai gali būti blankūs, pernelyg saugūs ar bendriniai. Tai gali paveikti kūrybiškumą, niuansus ir sistemos gebėjimą atspindėti sudėtingas žmogiškąsias vertybes.

5. Interpretavimo priemonių poreikis

Tyrėjų metodas — ištirti, kaip modeliai įvertina kiekvieną galimą simbolį — yra naujas veiksmingas būdas, kaip atlygio modelius padaryti aiškiau interpretuojamus. Jis galėtų tapti standartiniu metodu, skirtu būsimų sistemų vertybių suderinamumo auditui atlikti.

6. Netinkamo suderinimo rizika plinta žemyn

Kadangi atlygio modeliai formuoja galingų kalbos modelių elgseną per mokymąsi pastiprinant (RLHF), bet koks šališkumas ar nesuderinamumas atlygio modelio lygmeniu gali tyliai plisti į dirbtinio intelekto sistemas, dabar naudojamas švietimo, sveikatos priežiūros, klientų aptarnavimo ir politikos srityse.

7. Žmogiškosios vertybės yra sudėtingos ir sunkiai užkoduojamos

Galiausiai tyrimas pabrėžia, kad dirbtinio intelekto suderinimas su žmogaus vertybėmis yra trapus ir niuansuotas. Vertybes užkodavus vienu skaitmeniniu balu, pernelyg supaprastinamas moralinis sudėtingumas, o toks supaprastinimas gali turėti realių padarinių.

Publikacijoje skelbiama asmeninė autoriaus nuomonė. Portalo 77 pozicija negali būti tapatinama su autoriaus nuomone.

Vilmantas AUŠRA: Ar dirbtinio intelekto sistemos tikrai supranta, ką (kaip žmonės) vertiname?

Ką daryti, jei patys vertintojai yra klaidingi?

1. Atlygio modeliai nėra pakeičiami vieni kitais

2. Raginimo įrėminimas daro didelę įtaką rezultatams

3. Šališkumas tam tikrų tapatybių atžvilgiu

4. Dažnų ženklų pervertinimas

5. Interpretavimo priemonių poreikis

6. Netinkamo suderinimo rizika plinta žemyn

7. Žmogiškosios vertybės yra sudėtingos ir sunkiai užkoduojamos

Ką apie tai manai tu?

Dėl karinių operacijų nukentėję gyventojai nebeliks be pagalbos: pritarta naujai tvarkai

Nauja tvarka sveikatos sistemoje: vienoms gydymo įstaigoms – daugiau galimybių, kitoms – daugiau ribojimų?

Seimas perbraižė rinkimų taisykles: kai kurių kandidatų programos galės būti uždraustos

Vokietijoje artėja istorinis lūžis: AfD gali pirmą kartą perimti žemės valdžią

A. Burnhamas tapo favoritu perimti premjero postą po K. Starmerio atsistatydinimo

V. Zelenskis perspėja Varšuvą: Lenkijos ir Ukrainos konfliktas gali baigtis pavojinga eskalacija

Beveik 5 tūkst. eurų už vasarą Palangoje: darbdaviai ieško darbuotojų, o žmonės dalinasi kita „realybe“

Pamačiusi, kaip atrodo naujasis Geležinis vilkas, vilnietė neslėpė emocijų: „Esu šokiruota“

Tapk 77.lt nariu