Kako znanstvenici potiču znatiželju u umjetnoj inteligenciji za nova otkrića

Umjetna inteligencija (UI) postala je neizostavan alat u brojnim sektorima, od medicine do automobilske industrije. Međutim, tradicionalni pristupi treniranja UI na zadacima s precizno definiranim ciljevima često ograničavaju njezinu sposobnost samostalnog istraživanja i rješavanja problema koji ranije nisu bili poznati. Znanstvenici stoga razvijaju nove metode kojima potiču UI na razvijanje vlastite znatiželje, otvarajući time put prema novim rješenjima i inovacijama.

Sadržaj...

1. Inspiracija iz svijeta videoigara

Prisjetimo se prvih susreta s videoigrama. Netrebali nam je vanjski poticaj; nepoznati svjetovi sami po sebi pobuđivali su našu znatiželju. Igrali smo iz čistog užitka, bez nagrada ili kazni. Taj unutarnji poriv poznat je kao intrinzična motivacija – pokretačka snaga koja nas tjera na istraživanje i učenje. Znanstvenici su prepoznali da se sličan princip može uspješno primijeniti i na umjetnu inteligenciju. Umjesto da se algoritmi fokusiraju isključivo na zadatke s jasnim nagradama, potiču se na istraživanje i otkrivanje novih obrazaca vođeni vlastitom znatiželjom.

Za postizanje tog cilja koristi se pristup poznat kao učenje vođeno znatiželjom (eng. curiosity-driven learning). U ovom modelu, UI ne dobiva nagradu samo za ispravno izvršen zadatak, već i za otkrivanje nečeg novog ili neočekivanog. To je analogno osjećaju igrača koji otkriva skriveni prolaz ili tajnu u igri – iznenađenje i zadovoljstvo potiču daljnje istraživanje i angažman.

2. Teorije motivacije i sustavi nagrađivanja

Motivacija se općenito dijeli na dvije glavne kategorije: intrinzičnu (unutarnju) i ekstrinzičnu (vanjsku). Tradicionalni algoritmi učenja pojačanjem (reinforcement learning) uglavnom se oslanjaju na ekstrinzičnu motivaciju, odnosno na nagrade i kazne izravno povezane s izvršavanjem zadataka. Međutim, kada je cilj potaknuti UI na samostalno istraživanje, nužno je razviti sustav koji nagrađuje sam proces znatiželje.

Jedan od učinkovitih pristupa je nagrađivanje na temelju pogreške u predviđanju (eng. predictive error reward). UI dobiva nagradu kada njegov model pogriješi u predviđanju određenog ishoda, što ga motivira da dublje istraži područja neizvjesnosti. Drugi pristup, koji se nadovezuje na koncept intrinzične motivacije, podrazumijeva da UI treba biti potaknut na učenje i istraživanje iz vlastite