Ob izjemnem napredku jezikovne umetne inteligence, ki smo mu bili priča v zadnjih mesecih, nas vse bolj navdušujejo tudi skoraj neverjetne zmožnosti slikovne umetne inteligence. Računalniški programi, ki temeljijo na strojnem učenju nevronskih mrež, so postali zelo uspešni pri prepoznavanju predmetov, oseb in situacij na slikah, prav tako tudi pri ustvarjanju novih prepričljivih navideznih fotografij, ki lahko zelo podrobno prikazujejo situacije, ki se v resnici nikoli niso zgodile.
Večina tovrstnih programov slike ustvarja na osnovi tekstovnega poziva, ki ga pripravimo v povsem običajnem vsakdanjem jeziku. Preprosto opišemo, kaj želimo prikazati na sliki, in besedilo pošljemo programu, ki na podlagi besed ustvari sliko. Vedno večja razpoložljivost in kakovost tovrstnih pametnih orodij umetne inteligence nam odpira številne možnosti za njihovo koristno uporabo, hkrati pa moramo biti pozorni tudi na potencialne težave in nevarnosti.
Ena od pomembnih lastnosti umetne inteligence, ki temelji na strojnem učenju nevronskih mrež, je njena zmožnost odkrivanja skritih struktur v podatkih. In prav ta sposobnost je pomembna tudi za prepoznavanje vsebine slik in ustvarjanje novih slik s tekstovnim pozivom. Nevronsko mrežo lahko namreč z analizo veliko različnih slik naučimo, da zna informacijo o posamezni sliki zapisati v zelo strnjeni obliki in iz te skrajšane oblike nazaj ustvariti dober približek prvotne slike.
Podatki o sliki so v digitalni obliki običajno shranjeni tako, da je v datoteki zapisana informacija za vsako piko, ki sestavlja sliko. Večja ko je resolucija slike, več pik gradi sliko in večja je datoteka, v kateri so shranjeni podatki. A nevronsko mrežo lahko naučimo, da zna podatke o posamezni sliki zakodirati tudi v bistveno manjšo in bolj učinkovito predstavitev, ki še vedno vsebuje bistvene značilnosti slike. Cilj takšnega učenja je, da zna umetna inteligenca z bistveno manj informacijami ustvariti sliko, ki je izvorni sliki zelo podobna.
Na osnovi strojnega učenja, ki poteka tako, da sistem analizira veliko različnih slik, se nevronska mreža uči, kako zmanjšati razliko med izvorno in ustvarjeno sliko. (Strokovno rečeno, se vhodne visokodimenzionalne podatke nauči učinkovito kompaktno kodirati v nizkodimenzionalni latentni prostor.) Rezultat takšnega učenja pa ni le, da zna sistem zgoščeno zapisati podatke o sliki, ampak tudi, da smo dobili orodje za analizo vsebine slik. Izkaže se namreč, da imajo slike s podobno tematiko podoben zapis v skrčeni obliki. Čeprav sta sliki mačke v običajnem slikovnem digitalnem zapisu različni, bosta njuna zapisa v zgoščenem načinu podobna. In prav zmožnost prevajanja med digitalnimi slikami in skrčenim zapisom bistva posamezne slike je pomembna funkcija, ki omogoča tako prepoznavanje vsebine slik kot tudi ustvarjanje novih podob.
Zanimivo pa za postopek učenja zapisovanja zgoščenega bistva slik nevronska mreža ne potrebuje podatkov o tem, kaj je na slikah. Avtomatsko se uči le, kako informacijo o sliki učinkovito skrčiti in jo nato prepričljivo poustvariti. Stroj lahko tako povsem samostojno ustvari algoritem, ki je zmožen zaznati podobnost med dvema slikama mačke, čeprav gre pri prvi za fotografijo živali, pri drugi pa za risbo. Kljub temu da sta likovno dokaj različni podobi, bosta v skrčenem zapisu nevronske mreže, ki se je naučila učinkovito povzeti bistvo slik, zapisa obeh slik blizu skupaj. Slike s predmetov iste vrste se bodo tako preslikale v podobne zgoščene zapise, kar omogoči avtomatsko kategorizacijo vsebine slik.
Ko imamo enkrat vzpostavljen sistem, ki zna učinkovito prevajati med sliko v digitalni obliki in zapisom njenega bistva, smo zgradili tudi že sistem za prepoznavanje in ustvarjanje slik. Če znamo tekstovni ukaz pretvoriti v zgoščeni zapis slike, lahko tako ustvarjamo nove slike na določeno temo. Seveda pa je dejanska izvedba dobro delujočih sistemov za generiranje slik bistveno bolj zapletena. Zadnja leta temelji predvsem na pristopu, pri katerem se nevronska mreža uči, kako učinkovito dodajati in odvzemati naključni šum na slikah, saj se je takšen postopek izkazal kot bolj stabilen in učinkovit.
Ko enkrat razumemo osnove delovanja orodij za ustvarjanje slik, nam je jasno tudi, zakaj je izbira nabora slik, na katerih se učijo nevronske mreže, zelo pomembna. Umetna inteligenca namreč avtomatsko ustvari sistem za razlikovanje vsebine slik zgolj na podlagi slik, ki jih ima na voljo za učenje. Če se bo učila predvsem na belopoltih obrazih, bo znala to skupino obrazov analizirati veliko bolj učinkovito kot obraze temnopoltih oseb.
V primeru, ko se modeli umetne inteligence pri nekaterih demografskih skupinah obnesejo bolje kot pri drugih, govorimo o pristranskosti umetne inteligence. Do pristranskosti običajno pride, kadar se podatki, ki jih uporabijo za usposabljanje modelov, ne ujemajo z globalno demografsko porazdelitvijo ljudi v resničnem svetu ali kadar se modeli usposabljajo na podatkih, ki večinoma predstavljajo le posamezne demografske skupine. A raziskovalci so že razvili metode, s katerimi lahko pred usposabljanjem modela strojno analizirajo različne oblike pristranskosti, ki so morebiti prisotne v naboru podatkov. Na ta način se razvijalci vnaprej zavejo, da morajo podatke morda dopolniti ali drugače strukturirati.
(Slike so bile ustvarjene s programom Midjourney.)
https://www.delo.si/mnenja/kolumne/ustvarjanje-slik-z-umetno-inteligenco/