Domov Zapisi o znanosti Analize Kako dobra je tvoja znanost?

Kako dobra je tvoja znanost?

Zakaj najprestižnejši evropski program financiranja odličnih raziskav prepoveduje kazalnik, ki v splošnem velja za merilo odličnosti raziskav?

Piše:

Ana Liza von Edelstein

16. 11. 2021

V času hude tekmovalnosti v akademskem svetu se daje vedno večji poudarek odlični znanosti. Odličnost raziskovalnih rezultatov je najpogosteje opredeljena kot velika odmevnost, ki se običajno meri s faktorjem vpliva revije (Journal Impact Factor, JIF). A najbolj cenjeni evropski program za financiranje odlične znanosti, Evropski raziskovalni svet (ERC), je letos prepovedal uporabo faktorjev vpliva revij pri vseh projektnih prijavah, vključno z omembami v življenjepisu prijavitelja in besedilu prijave [ERC-WP, str.19,20,21,24]. Hkrati z objavo novega delovnega programa je ERC tudi izjavil, da je podpisal sanfranciško deklaracijo o vrednotenju raziskovalne dejavnosti DORA, katere cilj je reforma vrednotenja raziskovalne dejavnosti [THE, 16. 7. 2021].

Zakaj najprestižnejši evropski program financiranja odličnih raziskav prepoveduje kazalnik, ki v splošnem velja za merilo odličnih raziskav? Poglejmo si podrobneje, kaj odličnost in kazalniki sploh pomenijo in kako to vpliva na trenutne raziskovalne prakse.

Zakaj vrednotimo delo znanstvenikov?

Vrednotenje raziskovalne dejavnosti ima vsaj dve vlogi. Prva, najočitnejša, je primerjava produktivnosti posameznih raziskovalcev, raziskovalnih skupin, institucij ali celo držav. Druga, morda malo manj samoumevna, pa je nadzor in ohranjanje kakovosti. Možnost, da pride do napak, zmot in goljufij, je treba čim bolj zmanjšati, pri čemer je treba zagotoviti kar najvišje standarde raziskovalne integritete, tako kot to velja za znanstvene revije s postopkom strokovne recenzije (ang. peer review).

Uporabnost in odmevnost objavljenih znanstvenih publikacij se običajno meri s tem, kako pogosto jih citirajo druge publikacije. Obstajajo tudi drugi pozitivni učinki in koristi, ki jih znanstveni izsledki prinašajo širši družbi, vendar jih je težko ovrednotiti in še težje zagotoviti kakovost tega vrednotenja. Zato se je skozi čas kot merilo za kakovost znanstvenih izsledkov uveljavil faktor vpliva revije (JIF), v katerem se odmevnost oz. vpliv revije uporablja kot pokazatelj, kako visoka je kakovost objavljenih rezultatov v njej ter kakšen vpliv je mogoče pričakovati pri novo objavljenih člankih. Vendar ima preprosta formula “večje število citatov = višja kakovost” nekaj težav, zaradi katerih je v zadnjih letih začela izgubljati popularnost. Poglejmo si podrobneje kritike te prakse.

Ne glede na uporabo faktorja vpliva revija (JIF) je ena glavnih kritik kratko obdobje, ki ga vzamejo za njegov izračun. Ta interval običajno znaša 2 ali 5 let, včasih pa je določen tudi drugače, kar je odvisno od revije. Znanstveni članki praviloma dosežejo vrh citiranosti šele nekaj let po objavi, kar pomeni, da število citatov doseže najvišjo vrednost šele po koncu tipičnega računskega obdobja za indeks [van Leeuwen]. Kratkoročni ocenjevalni intervali (npr. prvih 3–5 let po objavi) bodo odmevnost neke publikacije torej zelo verjetno podcenili. Kljub temu sta po nekaterih analizah prvi dve leti že dovolj reprezentativni za izračun pričakovanega kumulativnega števila citatov vseh člankov v posamezni reviji, čeprav z močnimi odstopanji znotraj posameznega letnika in med njimi [van Leeuwen]. Torej se JIF (z omejitvami) lahko uporablja v okviru svojega prvotnega namena, to je za vrednotenje znanstvenih revij kot celote [NatureMater2013], kar pomeni, da je primeren za knjižnice kot pomoč pri odločanju, na katere revije naj se naročijo.

Zmote, napake in faktor vpliva revija kot filter

Kako pa je z uporabo faktorja vpliva revije (JIF) kot merila za odličnost posameznih člankov ali avtorjev? Po mnenju kritikov ta ni smiselna, saj je JIF splošen kazalnik uspešnosti revije, ki vključuje vse publikacije v obdobju več let, zato ga ne bi smeli uporabljati kot približek kakovosti posameznega prispevka ali njegovih avtorjev [Callaway]. Matematično oz. statistično gledano so porazdelitve citatov, na katerih temelji JIF, močno popačene in mogoče je empirično dokazati, da iz JIF ni mogoče sklepati o uspešnosti posameznih prispevkov [Larivière]. O tem se ustrezno razpravlja npr. v novičarski rubriki revije Science [SciMag]. Brembs in sodelavci so jasno dokazali, da ne obstaja povezava med JIF oz. uvrstitvijo revij na lestvicah in dobro znanstveno metodologijo [Brembs2013]. Dobre primere za to ponujajo Callaway in sodelavci: leta 2015 je večina člankov v reviji Science zbrala manj citatov, kot kaže takratni faktor vpliva: 74,8% člankov revije Nature je bilo citiranih manjkrat od faktorja vpliva (38,1), 75,5% člankov revije Science pa manj kot 35-krat v 2 letih (JIF je bil 34,7). Revija PLoS Genetics je imela najnižji delež člankov z manj citati od faktorja vpliva (6,7), in sicer 65,3%. [Callaway]

Z vidika argumentov v korist JIF se povedano zdi protiintuitivno in neutemeljeno. Temeljni argument za uporabo JIF za ocenjevanje kakovosti določenega članka je, da je ta članek gotovo zelo dober, če je bil objavljen v reviji z visokim JIF. Ta argument temelji na prepričanju, da je objavljanje v revijah z visokim JIF zahtevnejše, ker te vzdržujejo višje standarde recenzijskega postopka in so bolj selektivne od revij z nižjim JIF glede publikacij, ki jih sprejmejo v objavo. Seveda povprečno število citatov, ki jih prejme članek v določenem časovnem obdobju, ne odraža le njegove kakovosti, pač pa tudi zanimanje za ta članek v tem časovnem obdobju, na kar lahko poleg kakovosti raziskave vplivajo še številni drugi dejavniki. Da bi bil kazalnik dejansko merilo kakovosti, bi moral vzdržati tudi nasprotno argumentacijo: če višji JIF označuje višjo kakovost posamezne publikacije, potem nižji JIF označuje nižjo kakovost [Paulus]. Vendar očitno ni tako, saj je mogoče najti kakovostne članke z veliko citati tudi v revijah z nizkim JIF. Da bi JIF veljal za zanesljiv in objektiven kazalnik kakovosti, bi moral izpolnjevati oba pogoja.

Nizek JIF ne odraža nizke kakovosti raziskav

Zagovorniki JIF izključujejo nasprotno argumentacijo na osnovi argumenta iz nevednosti (“ad ignorantiam“). Ta argument temelji na navideznem dokazu, pri čemer računa na človeško nevednost oz. na pomanjkanje nasprotnih dokazov. Tipični primeri so lahko: »V kliničnih študijah tega zdravila niso našli stranskih učinkov. Zato je to zdravilo varno.« ali »Nihče ni dokazal, da duhovi ne obstajajo. Zato duhovi obstajajo.« [Paulus] To pomeni, da članek v reviji z visokim JIF lahko razumemo kot odlično delo. Vendar to ne pomeni, kot smo videli zgoraj, da je članek, objavljen v reviji z nizkim JIF, nizke kakovosti. Natančneje, nizek JIF revije pomeni le, da za te članke obstaja manj informacij o njihovi kakovosti, ne pa, da je njihova kakovost nizka. Nizek JIF ne odraža nizke kakovosti raziskav, temveč negotovost glede kakovosti in potrebo po dodatnih informacijah, s katerimi bi lahko določili njihovo kakovost. [Paulus]

Argument o selektivnosti revij z visokim JIF, tj. da objavljajo le visoko kakovostne raziskave, je ovrglo več študij. Podatki Brembsa in sodelavcev pa kažejo, da vrednost JIF posamezne revije ni povezana z merljivim učinkom posameznih člankov v tej reviji, čeprav bralci subjektivno dojemajo, da korelacija obstaja, oziroma revijam pripisujejo pomen glede na uvrstitev po JIF [Brembs2013]. To je v resnici zmota argumentov avtoritete in argumenta ad hominem, saj bi v tem primeru JIF igral vlogo glavnega odločevalca o kakovosti člankov v reviji. Ponovno pa bi nizek JIF reviji znižal ugled, kar bi se nato preneslo na članke v njej [Paulus]. Z nekaj razmisleka lahko to zmoto zlahka spregledamo. Pravzaprav je razmeroma enostavno najti primere, pri katerih verjetnost, da bi v reviji z nižjim JIF našli članek z več kot 12 citati na leto, presega verjetnost, da bi tak članek našli v določeni reviji z višjim JIF. Na splošno se tovrstna tako imenovana ekološka zmota pojavi, ko je porazdelitev citatov močno popačena oziroma asimetrična [Paulus]. To običajno velja za citiranost revij in s tem za JIF [Paulus,Larivière].

Skladno s tem bi lahko revija z JIF 12 vsebovala nekaj člankov, ki so bili v preteklih dveh letih citirani več stokrat, vendar tudi veliko drugih, ki so bili v istem obdobju citirani le redko. Takšen vzorec citiranja bi povzročil močno popačeno porazdelitev citatov na članek, medtem ko bi druga revija z JIF 10 lahko imela običajno porazdeljeno število citiranosti člankov za isto časovno obdobje. Brez nadaljnjega poznavanja porazdelitve citatov v revijah v določenem letu (tj. podatkov na ravni posameznega članka) ni mogoče ugotoviti, ali je članek v reviji z višjim JIF res boljše kakovosti ali širšega pomena. Zaradi tako imenovanih ekoloških zmot je možno, da JIF ne odraža verjetnosti, da bi v reviji z manjšim JIF-om našli članek z več citati [Paulus].

Druge kritike faktorja vpliva

Nadaljnja kritika je, da je JIF predmet pogajanj med uredniki revij in Thomson Corporation, ki ga izračunava [Editorial 2006], da je neponovljiv in da je na splošno matematično neutemeljeno merilo za ocenjevanje znanstvene kakovosti oz. učinka [Brembs2013]. Poleg tega obstaja tudi “učinek upadanja” (ang. decline effect), tj. pojav, da moč dokazov za določeno odkritje s časom upada, ki močno pozitivno korelira z JIF [Brembs2013]. To vzbuja dvome o dejanski kakovosti posameznih člankov, če o njej sklepamo samo na podlagi JIF. Situacijo poslabšujejo družbeni in finančni pritiski na podlagi lestvic revij in JIF pri napredovanjih, habilitacijah in deljenju raziskovalnih sredstev [Brembs2013]. Poleg tega JIF revije vpliva na stopnjo citiranosti in vpliv posameznih člankov [Brembs2013] in statistični dokazi kažejo, da to ni odvisno od dejanske kakovosti članka samega [Paulus].

Težava je tudi, da z JIF močno pozitivno korelira tudi število umaknjenih člankov. [Fang,Brembs2013] Nekateri raziskovalci trdijo, da so revije z višjim JIF deležne toliko večje pozornosti, da se v njih odkrije več primerov goljufij. Znanstveni sistem pa JIF ne uporablja le kot kazalnik, ampak tudi za cilje. Ker se razdeljujejo sredstva v skladu s številom objav v revijah z visokim JIF, visok JIF pravzaprav spodbuja poskuse goljufij pri objavah v prestižnejših revijah. Skladno s tem sta število umaknjenih člankov in tako imenovani indeks umika pri revijah z visokim JIF veliko višja, znanstveni podatki pa dokazujejo, da je JIF povezan z naraščajočo nezanesljivostjo [Fang,Brembs2018,Twitter1,Twitter2].

V najboljšem primeru nekoristno, v najslabšem neznanstveno

Mesto na hierarhičnih lestvicah znanstvenih revij (ang. “journal ranking“) je osnova večine raziskovalnih strategij objavljanja [Brembs]. Obstajajo različni sistemi razvrščanja revij, vendar imajo vsi ti sistemi podobne negativne učinke kot neprimerna uporaba JIF [Brembs]. To bi bilo potrebno nadomestiti s knjižničnim znanstvenim komunikacijskim sistemom, kot jasno navajajo Brembs in sodelavci:

“Pregledna literatura kaže, da je uporaba uvrstitve revije v najboljšem primeru nekoristna, v najslabšem pa neznanstvena. Po našem mnenju JIF ustvarja iluzijo ekskluzivnosti in prestiža, ki temelji na predpostavki, da napoveduje znanstveno kakovost, ki je ne podpirajo empirični podatki.” [Brembs]

Namesto tega številne študije razpravljajo o uporabi alternativnih načinov za merjenje učinka (npr. [Brembs],[NatureMater2012]), zlasti s sočasno uporabo različnih kazalnikov. V skladu s tem je predstavnik revije Nature nedavno javno izjavil, da bo revija kmalu posodobila svoje spletne strani, da bi zajela širši nabor meritev [Callaway].

Trenutne prakse so pomanjkljive

Nedavna zaveza Evropskega raziskovalnega sveta (ERC), da prepove uporabo faktorjev vpliva revij pri projektnih prijavah, vključno z omembami v življenjepisu prijavitelja in besedilu prijave, predstavlja dobro priložnost, da kritično prevrednotimo sedanjo prakso ocenjevanja znanstvene odličnosti. Videli smo, kako širok nabor podatkov dokazuje, da so naše sedanje prakse zelo pomanjkljive in neznanstvene. Zato je nujno potrebna ustrezna razprava o namenu vrednotenja in ustreznih načinih vodenja zdrave znanosti.

Naj zaključim s kratkim citatom, ki kaže, kako zelo so ustaljene prakse v znanosti dejansko neprimerne in neznanstvene:

“Zanikanje pomena faktorjev vpliva v tej situaciji v bistvu pomeni, da zanikamo pomen celotnega sistema založništva revij in vsega opravljenega dela (…) pri izvajanju nadzora kakovosti.”
Ludo Waltman, raziskovalec na Univerzi v Leidenu (iz [Callaway])