Veliki podatki – nova paradigma vednosti

Piše:

25. 4. 2013

Newyorški pravnik Mike Flowers je v začetku svoje poklicne poti preizkusil več različnih služb, med drugim tudi na tožilstvu in med odvetniki, a mu nikakor ni uspelo najti poklica, s katerim bi bil resnično zadovoljen. V iskanju novega in zanimivega se je tako pridružil skupini pravnih strokovnjakov, ki so v Iraku sodelovali pri izvedbi sojenja Sadamu Huseinu.

A že kmalu po prihodu v Bagdad je spoznal, da njegovo delo ne bo toliko pravno-strokovno kot predvsem organizacijsko. Skupaj z vojaškim osebjem je vsak dan znova na podlagi najrazličnejših zbranih obveščevalnih podatkov ugotavljal, kje so tisti dan najnevarnejše točke v mestu, katere poti so najprimernejše za transporte prič, in reševal podobna, povsem praktična, a hkrati tudi zelo pomembna vprašanja.

Ob vrnitvi v New York se mu je porodila zamisel, da bi se lahko na enak način, z analizo množice podatkov, ki so na voljo, tudi doma učinkoviteje spoprijemali s kriminalom in z drugimi nevarnostmi, ki pretijo meščanom. Da gre za zanimivo zamisel, ki jo velja preizkusiti, mu je uspelo prepričati župana New Yorka Michela Bloomberga. Ta je Flowersa zaposlil v svoji administraciji kot vodjo službe za analitiko. Njegova prva naloga je bila, da sestavi skupino strokovnjakov, ki bodo vzpostavili mehanizme, s katerimi bo mesto lahko čim koristneje uporabljalo množico podatkov, ki jih imajo na voljo njegovi službe in uradi.

Med sestavljanjem ekipe je Flowers hitro spoznal, da s klasičnimi statističnimi načini obdelave podatkov ne bo prišel do želenih rezultatov, zato je za sodelavce izbral kar pet zelo mladih diplomantov, ki jih je klical »otroci« (»the kids«). Z njimi se je najprej lotil vprašanja nelegalnih prezidav stanovanj in hiš, zaradi katerih je v nekaterih poslopjih živelo tudi po desetkrat več ljudi, kot je bilo sprva načrtovano in dovoljeno. Huda težava, ki so jo prinesle te prezidave, je bila, poleg preobremenjenih komunalnih storitev, tudi velika požarna nevarnost.

Ključna težava pri spoprijemanju s takšnimi mestnimi »črnimi gradnjami« je bila, da dobi 200 gradbenih inšpektorjev v New Yorku na leto kar 25 tisoč prijav. Zato je bilo treba najprej vzpostaviti mehanizem, s katerim bi bilo mogoče v množici prijav samodejno najti tiste, ki dejansko opozarjajo na posege, najnevarnejše za prebivalce, in izločiti primere, ko sosed prijavi soseda zgolj zaradi hrupa ali smradu, ki ga povzroča sicer povsem legalna prenova stanovanja.

Flowersova skupina je najprej sistematično združila zbirke podatkov vseh mestnih služb in poskušala najti vzorce, značilne za najnevarnejše primere prezidav zgradb. Vključili so najrazličnejše podatke, kot so rednost plačevanja mestnih storitev in davkov, pogostost klicanja policije, reševalnega vozila, pritožbe glede hrupa, urejenost okolice ipd.

Na začetku je bilo veliko težav s tem, ker je imela vsaka mestna služba malo drugačen sistem evidence poslopij in stanovanj, tako da so morali najprej najti način, kako podatke sploh združevati. A ker jih niso zanimale konkretne vzročne povezave, ampak le splošnejše korelacije oziroma ujemanja, so se za začetek zadovoljili tudi z manj natančnim lociranjem.

Da bi čim bolj izpopolnili svoje algoritme, so z inšpektorji odšli tudi na teren in jih opazovali pri delu. Hitro so ugotovili, da imajo najizkušenejši nekakšen intuitivni občutek, katere stavbe so dejansko nevarne. Tako so denimo včasih že po skrbno izdelanem novem vhodu z veliko gotovostjo sklepali, da je lastnik hiše skrben gospodar, ki poskrbi tudi za siceršnjo varnost stanovalcev.

Junija 2011 so sistem toliko dogradili, da so vanj začeli redno vnašati vse nove pritožbe in jih selekcionirati. Inšpektorji so tako na mizo dobivali le prijave, ki jih je sistem razvrstil med 5 odstotkov tistih, ki so opozarjale na potencialno požarno najnevarnejše prezidave. Rezultati so presenetili vse. Pred samodejnim vrednotenjem prijav glede na množico drugih podatkov, ki jih je imelo o posamezni stavbi mesto, so inšpektorji izdali v povprečju le 13 odstotkov odločb za izselitev, sedaj je količina takšnih odločb narasla na več kot 70 odstotkov obravnavanih primerov.

Poleg inšpektorjev so bili z rezultati izjemno zadovoljni tudi gasilci, saj se je izkazalo, da je gašenje požarov v poslopjih, ki so ilegalno predelana, tudi za gasilce kar 15-krat nevarnejše kot sicer, saj v teh primerih niso upoštevani ustaljeni varnostni standardi.

Vstopamo v dobo velikih podatkov

Viktor Mayer-Schonberger in Kenneth Cukier v knjigi Big Data: A Revolution That Will Transform How We Live, Work, and Think (Eamon Dolan/Houghton Mifflin Harcourt, 2013) napovedujeta, da bo prav fenomen »velikih podatkov« (»big data«) prihodnja leta pomembno vplival na to, kako dojemamo svet in svoje mesto v njem. Poleg tega, da lahko na podlagi ogromne količine podatkov že sedaj najdemo zakonitosti, ki jih sicer ne opazimo, a so morda zelo pomembne, še bistveno večja količina dostopnih informacij ne bo povečala le obsega možnih analiz, ampak bo pomenila tudi spremembo same paradigme našega odnosa do podatkov.

Podatki bodo po mnenju avtorjev knjige postali pomemben kapital oziroma nekakšna »nafta« nove dobe razvoja, v katero vstopamo. Vedno več ekonomije bo temeljilo prav na analizi velikih zbirk podatkov, ki danes ne nastajajo le v javnih agencijah in uradih, ampak vse več tudi v zasebnih podjetjih. Tako kot Facebook, Twitter, Google in drugi spletni velikani že sedaj ustvarijo velik del dobička z oglaševanjem, ki temelji na množici podatkov, zbranih prek njihovih storitev, se bo takšna usmeritev začela nevzdržno širiti tudi zunaj kroga zgolj »internetnih« podjetij.

Ljudje svet po svoji naravi skušamo razumeti tako, da iščemo vzroke. Nekako smo narejeni tako, da si dogodke razlagamo s kategorijama vzroka in posledice. Podrobnejša analiza pokaže, da se na dogajanje odzivamo na podlagi dveh mehanizmov v možganih: hitrega intuitivnega in počasnega racionalnega. Intuitivni deluje na podlagi navad in nam omogoča, da se zelo hitro odzovemo na ponavljajoče se situacije. Racionalni pa je, nasprotno, počasen, saj potrebujemo veliko energije in časa, da okoliščine razumsko analiziramo, poskušamo najti vzroke in pravila, ki delujejo v konkretnem primeru, in se šele nato odločimo.

Doba množičnih podatkov in korelacij, ki nam jih te zbirke ponujajo, kaže, da se bomo morali navaditi tudi na tretji način odzivanja, ki ni ne intuitivni in ne vzročni, ampak korelacijski. Gre za neke vrste analizo množice podatkov, ki pa ne išče vzrokov, ampak zgolj zelo verjetne povezave.

Korelacija pomeni statistično povezavo med dvema serijama podatkov. Močna korelacija pomeni, da če se vrednost enemu podatku spremeni, je zelo verjetno, da se bo enako spremenila vrednost tudi drugemu. Recimo, če na nekem območju opazijo, da se je v spletnih brskalnikih povečalo število iskanj na temo slabega počutja, visoke telesne temperature ipd., je zelo verjetno, da se na tem območju širi epidemija gripe. Pri Googlu so s projektom Google Flu Trends ugotovili, da pri pojavitvi gripe zaznajo značilen vzorec povezanih iskanj, tako da lahko sedaj že skoraj sočasno s pojavom gripe zaznajo, kje so žarišča in kako se giblje okužba, kar je v veliko pomoč različnim službam, da se ustrezno odzovejo.

Tradicionalno smo svet poskušali razumeti tako, da smo postavljali hipoteze in jih z zbiranjem podatkov skušali dokazati oziroma ovreči. Nova vrsta analize velike množice podatkov nam omogoča, da iščemo korelacije oziroma povezave tudi onstran okvira postavljanja hipotez o vzročni odvisnosti. Povsem dobro lahko neki sistem, utemeljen na ogromni množici zbranih podatkov, deluje in napoveduje bodoče dogodke tudi, če gre zgolj za skupek korelacij brez jasnih vzročnih zvez.

V kompleksnih sistemih, kot je recimo naravno okolje ali živa bitja, je definicija razumevanja nekega pojava zgolj v obliki ugotavljanja jasnih povezav med vzroki in posledicami lahko zelo omejujoča. V takšnih primerih, kjer imamo na voljo ogromno podatkov in zapletene povezave med množico različnih dejavnikov, razumevanje že začenjamo pojmovati širše kot zgolj klasično prek kategorije vzročnosti.

Nove množice zbranih podatkov nam bodo omogočile, da se bomo znali učinkoviteje spoprijeti denimo z najrazličnejšimi boleznimi, z nevarnostmi, ki jih prinašajo podnebne spremembe, in z vprašanji, ki se postavljajo na drugih pomembnih področjih znanosti in vsakdanjega življenja, kakršnih z do sedaj dostopnimi tehnologijami nismo znali učinkovito in sistematično preučevati. Hkrati pa je veliko podatkov lahko tudi vir najrazličnejših težav. Naša družba hitro prehaja iz dobe, ko je podatkov vedno primanjkovalo, v dobo, ko bo naenkrat težave lahko povzročalo tudi to, da bomo imeli podatkov na nekaterih področjih morda celo preveč.

Potreba po redefiniciji varovanja zasebnosti

Zadnja desetletja smo razvili tehnologije, ki nam omogočajo množično zbiranje in shranjevanje najrazličnejših informacij. Tudi takšnih, ki so se zdele nekoč povsem nepomembne. Ob tem se razvijajo še tehnologije učinkovite analize takšnih podatkov, ki znajo izluščiti marsikatere zanimive povezave in korelacije, kakršnih sicer ne bi mogli opaziti. Avtorja v knjigi Big data ugotavljata, da – kar zadeva odnos družbe do najrazličnejših množičnih sistemov zbiranja in hranjenja podatkov – pravkar vstopamo v dobo, ko bomo morali na novo premisliti tudi nekatere ključne predpostavke glede zasebnosti, na katerih temelji naša družba.

Anonimizacija podatkov, ko ste le pobrisali imena, naslove in podobne identifikacijske podatke, danes ni dovolj, da ne bi kdo iz množice sicer različnih podatkov vseeno razbral identitete konkretnih posameznikov. Avtorja predlagata bistveno večji prenos odgovornosti na uporabnike podatkov, a glede takšnih vprašanj bomo v prihodnjih letih prisiljeni iskati nov družbeni dogovor. Treba bo najti kompromis med koristnostjo uporabe informacij in možnostjo zlorabe oziroma posrednega škodljivega vpliva na družbo in življenje ljudi. Splošneje rečeno se ob tem postavlja pomembno vprašanje, kako bo doba velikih podatkov vplivala na samo dojemanje ljudi kot razumnih in svobodnih posameznikov.

Ob dostopu do najrazličnejših povezav in korelacij, ki jih najdemo v množici zbranih podatkov, se med drugim postavlja tudi vprašanje odnosa do posameznikov, ki postanejo sumljivi, ker korelacije med podatki kažejo, da obstaja realno občutno povečana verjetnost, da bodo storili zločin, čeprav česa podobnega dejansko niso še nikoli izpeljali. Ker bomo imeli z vedno večjo količino zbranih podatkov vedno več takšnih analiz, bomo prisiljeni vzpostaviti natančne protokole odzivanja, s katerimi bomo znali pravočasno zaznati na primer potencialnega množičnega morilca, ki namerava z brzostrelko vdreti v šolo, toda hkrati ne bomo nadlegovali ljudi, ki nikoli ne bi storili česa podobnega, a jih je morda algoritem po spletu okoliščin izločil kot potencialno sumljive.

Mož, ki je izmeril oceane

Čeprav je množično sistematično zbiranje najrazličnejših podatkov pojav, ki smo mu priča šele zadnja desetletja, obstajajo tudi primeri, ko je podoben način zbiranja in analize podatkov že v preteklosti pomembno vplival na napredek znanja. Avtorja knjige omenjata mladega obetavnega ameriškega mornariškega častnika Matthewa Fontaina Mauryja, ki je prav na podlagi množice zbranih podatkov o potovanju ladij po morjih sredi 19. stoletja povsem spremenil ustaljene navade plovbe po oceanih.

Maury je leta 1839, ko je šele dobro začenjal mornariško službo, doživel prometno nesrečo. Čeprav takrat še ni bilo avtomobilov, ampak so po cestah vozile zgolj kočije, je vseeno pretrpel tako hudo poškodbo noge, da ni bil več sposoben za službovanje na ladji. Že pri 33 letih so mu tako dodelili pisarniško delo v oddelku za navigacijo in zemljevide.

A izkazalo se je, da mu prav ta služba najbolj ustreza. Kot navigator je že dlje opažal, da ladje ne vozijo po najkrajših poteh, ampak se pogosto oddaljujejo od idealnih linij. Ko je kapitane spraševal po vzrokih za takšno plovbo, so po navadi pojasnjevali, da so posameznih poti vajeni in se jim zato zdijo varnejše.

Maury je začutil, da bi se dalo na podlagi veliko zbranih podatkov poti po oceanih bistveno izpopolniti in tako prihraniti precej časa. Vetrovi so bili marsikje razmeroma stalni in predvidljivi, samo vse podatke je bilo treba zbrati in primerno obdelati.

V starih mornariških dnevnikih je tako iskal zapise o vetrovih, morskih tokovih in temperaturah na posameznih delih morja in iz njih skrbno sestavil priročne zemljevide najprimernejših ladijskih poti za posamezna obdobja leta. Izkazalo se je, da so marsikatere navade kapitanov, ki so se poskušali z daljšimi potmi izogniti težavam, povsem neutemeljene.

Da bi pridobili možnost vpogleda v njegove podatke, so mu morali kapitani trgovske in vojaške flote dostavljati čim zanesljivejše nove meritve s poti, te pa je nato vgrajeval v svoje modele. Leta 1855 je izdal veliko delo The Physical Geography of the Sea, ki velja za prvo pomembno oceanografsko knjigo.