Vienas įrašas. akys. Paskelbk savo naujieną

Vilmantas AUŠRA: Ar dirbtinio intelekto sistemos tikrai supranta, ką (kaip žmonės) vertiname?

NuomonėsSkaitytojo Laiškas
Suprasti akimirksniu
Vilmantas Aušra
Basakojis judesio analizės, bėgimo technikos ir fizinio treniravimo treneris – Vilmantas Aušra. Autoriaus nuotrauka

Ką daryti, jei patys vertintojai yra klaidingi?

Naujame tyrime analizuojami „atlygio/vertinimo modeliai“, kurie padeda išmokyti didelius kalbos modelius (pvz., „ChatGPT“) atitikti žmogaus pageidavimus. Šie atlygio/vertinimo modeliai — tai nematomi teisėjai, užkulisiuose skiriantys balus dirbtinio intelekto atsakymams — didesnius, jei jie atrodo naudingi ar saugūs, mažesnius, jei neatitinka mūsų lūkesčių. Tačiau ką daryti, jei patys vertintojai yra klaidingi?

Mokslininkai atidžiai išnagrinėjo dešimt populiarių atlygio modelių, pateikdami jiems visus įmanomus vieno žodžio atsakymus į morališkai ar socialiai įtemptus klausimus. Tai, ką jie nustatė, nustebino ir kartais sukėlė nerimą. Nors modeliai buvo apmokyti tam pačiam tikslui, jie dažnai labai nesutapdavo, pirmenybę teikė tam tikrų tipų žodžiams, priklausė nuo to, kaip suformuluoti klausimai (kaip ir žmonės), ir buvo linkę pirmenybę teikti įprastiems žodžiams, o ne retesniems, potencialiai tikslesniems.

Dar blogiau, kai kurie modeliai pasižymėjo subtiliu, bet nuosekliu šališkumu, susijusiu su tapatybe — problemomis, kurios galėjo netyčia įsivelti stengiantis juos padaryti „nekenksmingus“. Šios paslėptos keistenybės gali nejučia nulemti dirbtinio intelekto sistemų, kuriomis kasdien naudojasi milijonai žmonių, elgseną.

Trumpai tariant, nors atlygio modeliai turi atspindėti mūsų vertybes, jie gali tai daryti netobulai — ir tokiais būdais, kurie nusipelno daug atidesnės analizės.

Pasekmės:

1. Atlygio modeliai nėra pakeičiami vieni kitais

Netgi pagal panašius tikslus apmokyti modeliai gali duoti labai skirtingus rezultatus. Tai paneigia įprastą prielaidą, kad atlygio modelius galima paprasčiausiai pakeisti arba naudoti pakartotinai ir tai nesukels jokių pasekmių. Kiekvienas modelis pasižymi savais ypatumais ir verčių kodais.

2. Raginimo įrėminimas daro didelę įtaką rezultatams

Modelių rezultatai skiriasi priklausomai nuo to, kaip suformuluotas klausimas — tai atspindi žmogaus kognityvinius šališkumus, pavyzdžiui, įrėminimo efektą. Tai rodo, kad derinimo procesas gali būti ne toks patikimas, kaip atrodo, ir juo gali būti lengvai manipuliuojama arba jis gali būti neteisingai suprastas.

3. Šališkumas tam tikrų tapatybių atžvilgiu

Tyrimas atskleidžia nenumatytus šališkumus tam tikrų tapatybės grupių atžvilgiu arba jų naudai, galbūt atsiradusius „nekenksmingumo“ derinimo metu. Tai kelia etinių problemų: modeliai gali išmokti vengti tam tikrų temų, ignoruoti marginalizuotus balsus arba stiprinti žalingus stereotipus — net jei tai daroma netyčia.

4. Dažnų ženklų pervertinimas

Modeliai neproporcingai teikia pirmenybę dažniems ar dažnai vartojamiems žodžiams, todėl atsakymai gali būti blankūs, pernelyg saugūs ar bendriniai. Tai gali paveikti kūrybiškumą, niuansus ir sistemos gebėjimą atspindėti sudėtingas žmogiškąsias vertybes.

5. Interpretavimo priemonių poreikis

Tyrėjų metodas — ištirti, kaip modeliai įvertina kiekvieną galimą simbolį — yra naujas veiksmingas būdas, kaip atlygio modelius padaryti aiškiau interpretuojamus. Jis galėtų tapti standartiniu metodu, skirtu būsimų sistemų vertybių suderinamumo auditui atlikti.

6. Netinkamo suderinimo rizika plinta žemyn

Kadangi atlygio modeliai formuoja galingų kalbos modelių elgseną per mokymąsi pastiprinant (RLHF), bet koks šališkumas ar nesuderinamumas atlygio modelio lygmeniu gali tyliai plisti į dirbtinio intelekto sistemas, dabar naudojamas švietimo, sveikatos priežiūros, klientų aptarnavimo ir politikos srityse.

7. Žmogiškosios vertybės yra sudėtingos ir sunkiai užkoduojamos

Galiausiai tyrimas pabrėžia, kad dirbtinio intelekto suderinimas su žmogaus vertybėmis yra trapus ir niuansuotas. Vertybes užkodavus vienu skaitmeniniu balu, pernelyg supaprastinamas moralinis sudėtingumas, o toks supaprastinimas gali turėti realių padarinių.

Publikacijoje skelbiama asmeninė autoriaus nuomonė. Portalo 77 pozicija negali būti tapatinama su autoriaus nuomone.

Ką apie tai manai tu?

Naudinga
Įdomu
Puslapiai
Aktyvūs nariai
77
Privatumo apžvalga

Ši svetainė naudoja slapukus, kad galėtume jums suteikti geriausią įmanomą naudotojo patirtį. Slapukų informacija saugoma jūsų naršyklėje ir atlieka tokias funkcijas kaip jūsų atpažinimas, kai grįžtate į mūsų svetainę, bei padeda mūsų komandai suprasti, kurios svetainės dalys jums yra įdomiausios ir naudingiausios.

Privatumo politika