Domov Eseji in zgodbe o znanosti Kako umetna inteligenca misli?

Kako umetna inteligenca misli?

Kako stroji izvajajo opravila, za katera se nam zdi, da je zanje treba na neki način tudi misliti?

Piše:

21. 3. 2024

Napredek zmogljivosti pametnih orodji umetne inteligence, ki smo mu priča zadnja leta, je osupljiv. Opravila, za katera je bilo še nedavno samoumevno, da jih lahko dobro izvajamo le ljudje, zdaj rutinsko opravljajo tudi stroji. Revolucija pri izboljšanju kakovosti delovanja pametnih naprav je presenetila celo strokovnjake, ki se že dolga leta ukvarjajo s tem področjem.

Tehnološki napredek spremljajo trditve, da niti sami znanstveniki, ki razvijajo nova orodja umetne inteligence, ne razumejo najbolje, zakaj natančno se je prav zdaj zgodil tako velik skok v zmogljivosti in uporabnosti tovrstne tehnologije. Seveda raziskovalci zelo dobro poznajo mehanizme, po katerih delujejo naprave in programi, ki poganjajo pametna orodja. Prav tako se zavedajo, da poleg poznavanja teorije za učinkovito izvedbo strojnega učenja modelov umetne inteligence potrebujejo tudi veliko računalniško procesorsko moč, ki ni poceni. Vseeno pa je nekaj popolnoma drugega, da znajo strokovnjaki ob praktični izvedbi procesov tudi pojasniti, kako umetna inteligenca dejansko izvaja opravila, za katera se nam zdi, da je zanje treba na neki način tudi misliti.

Veliki jezikovni modeli umetne inteligence, ki so zmožni izvajati pametne storitve, kot je chatgpt, delujejo na podlagi velikih nevronskih mrež. To so ogromne matematične enačbe, pri katerih se med procesom učenja parametri postopno prilagajajo, da znajo ti modeli na podlagi podanega vprašanja nato izračunati smiseln odgovor. A podobno kot pri povezavah med nevroni v človeških možganih tudi pri umetnih nevronskih mrežah ni očitno, kako se struktura povezav med nevroni izraža pri izračunanih odgovorih na vprašanja.

Veliki modeli umetne inteligence delujejo po načelu »črne škatle«, kjer vhodni podatki prehajajo skozi kompleksne povezave velike nevronske mreže, ki lahko vključujejo milijarde uteži (parametrov), a način, kako ti parametri medsebojno integrirajo in privedejo do specifičnih rezultatov, ni očiten. Razumevanje problema »črne škatle«, ki zadeva tudi delovanje velikih jezikovnih modelov umetne inteligence, predstavlja eno od pomembnih znanstvenih ugank našega časa. Vendar ta izziv ni pomemben le za gradnjo in obvladovanje še zmogljivejših modelov v prihodnosti, temveč predstavlja tudi eno temeljnih vprašanj pri raziskovanju umetne inteligence.

Ključna težava seveda ni pomanjkanje razumevanja matematičnih načel, ki so osnova za delovanje modelov umetne inteligence. Osrednji problem leži v globljem vprašanju: kako je mogoče, da lahko ogromne matematične enačbe tako učinkovito opravljajo naloge, kot so odgovarjanje na vprašanja, generiranje besedil, prevajanje med jeziki, ustvarjanje slik in podobna opravila, ki smo jih še pred kratkim kakovostno izvajali le ljudje?

Osnovni element strojnega učenja nevronskih mrež je pojav posploševanja ali generalizacije. Modeli umetne inteligence se namreč lahko naučijo nekaj »razumeti«, ne le naučiti na pamet. Generalizacija v strojnem učenju je sposobnost modela, da učinkovito in pravilno napove ali pojasni nove, prej neznane podatke, ki izhajajo iz iste splošne populacije kot učni podatki. V bistvu gre za zmogljivost modela, da uporabi naučeno znanje iz učne množice na podatkih, ki jih med treningom ni videl, kar je ključno za njegovo praktično uporabnost.

Modeli se lahko naučijo opravljati naloge, kot je prevajanje stavkov iz enega jezika v drugega, tako da se usposabljajo na določenem naboru že prevedenih primerov. Vendar svoje znanje lahko posplošujejo in se naučijo opravljati podobne naloge na primerih, ki jih še niso videli. Modeli si ne zapomnijo le vzorcev, ki so jih že videli, temveč med učenjem samostojno oblikujejo pravila, ki jim omogočajo uporabo teh vzorcev na novih primerih. Zlasti veliki jezikovni modeli, kot je gpt-4, imajo presenetljivo sposobnost posploševanja.

Ko model umetne inteligence treniramo, želimo, da se nauči vzorcev, ki so splošno veljavni za problem, ki ga poskušamo rešiti, ne želimo pa, da se preveč prilagodi posebnostim učne množice podatkov. Če model čezmerno prilagodimo učnim podatkom, bo imel na njih odlične rezultate, na novih podatkih pa bo njegova učinkovitost precej slabša, saj se je naučil specifične podrobnosti učne množice, namesto da bi razvil »razumevanje« splošnih vzorcev.

Z generalizacijo in drugimi podobnimi postopki veliki jezikovni modeli umetne inteligence izvajajo nekakšno stiskanje znanja, na katerem se učijo. Velike količine razpoložljivih informacij prek posploševanja strnejo v dobro strukturirano kompaktno obliko, ki zavzema precej manj prostora na disku kot izvorni podatki. Čeprav gre le za nastavitve parametrov v ogromni matematični enačbi, pa ta postopek strojnega učenja lahko razumemo tudi kot nekakšno tvorjenje pojmov, ki so sicer temelj mišljenja.

Čeprav se nevronska mreža med procesom učenja trudi le pravilno napovedati naslednjo besedo v velikem korpusu besedil, s pomočjo katerega jo usposabljamo, pri tem ustvari tudi nekakšen pojmovni svet, ki ostaja skrit v njenih parametrih oziroma utežeh, ko konča proces učenja. Umetna inteligenca se tako ne uči »na pamet«, ampak posplošuje in z razvojem malo drugače strukturiranih »pojmov« ureja podatke. Pri tem ustvarja strukture v skritem (latentnem) matematičnem prostoru nevronske mreže, ki bi ga lahko opisali tudi kot nekakšen virtualni svet idej, kot si ga je nekoč davno zamislil Platon, ko je poskušal razumeti, kako ljudje mislimo in se učimo.