Poročilo z letnega sestanka in skupščine COAR
Letošnja mednarodna skupščina in srečanje Konfederacije odprto dostopnih repozitorijev (COAR) sta potekala hibridno v San Joséju, Kostariki, od 16. do 18. maja. Gostitelj srečanja je bil Nacionalni svet rektorjev Kostarike (CONARE), organizatorji pa CONARE, COAR in južnoameriška mreža repozitorijev La Referencia. Tema srečanja je bila: Trajnost in inovativnost v znanstvenih komunikacijah.
Prvi dan je potekala skupščina, sledila so predavanja o dejavnostih COAR v delovnih skupinah do konca drugega dne. Tretji dan je bila konferenca odprta za širšo javnost.
Skupščine in nekatera zanimiva predavanja sem spremljala virtualno. San José je 8 ur pred nami (UTC-6), kar pomeni, da je dogodek potekal od 17.00 do 1.00 zjutraj. Povezava s Kostarike je bila motena, zato je na daljavo odpadel sklop predavanj o modelu objav “objavi, recenziraj, popravi” z uvodnim predavateljem Marinom Dacoso. Predavatelj je zato omogočil dostop do drsnic predavanja.
Letna skupščina COAR: dejavnosti in prihajajoče spremembe
COAR je mednarodno združenje posameznih repozitorijev in mreže repozitorijev, ki skupaj gradijo nove storitve in funkcionalnosti repozitorijev, usklajujejo politike in prakse pri gradnji repozitorijev ter dostopa do njih, ter delujejo kot globalni glas skupnosti repozitorijev.
COAR ima 153 članov in 8 partnerjev iz celega sveta. Združenje COAR e.V. je bilo ustanovljeno leta 2009 po zaključku projekta DRIVER II. Vodja projekta, Univerza v Göttingenu v Nemčiji, je poskrbela za registracijo. NUK je eden izmed ustanoviteljev.
V zadnjih letih se je pojavila potreba po preoblikovanju združenja, kar je bilo zaradi nemške zakonodaje težko izvedljivo. Zato se je vodstvo COAR odločilo razpustiti COAR e.V. s sedežem v Göttingenu in ga nadomestiti z COAR Stichting ali Fondacijo COAR, ki bo imela sedež na Nizozemskem. Med razlogi za to so predvsem centralizacija razpršenih kadrov, ki so delovali v COAR e.V., in doseganje večje fleksibilnosti delovanja, kar omogoča nizozemska zakonodaja. Registracijo nove organizacije v Amsterdamu so izvedli trenutni predstavniki vodstva COAR: predsednica upravnega odbora COAR, Martha Whithead iz Knjižnice Univerze v Harvardu, podpredsednik COAR, Kazu Yamaji iz Nacionalnega inštituta informacijskih znanosti Japonske, ter računovodja COAR, William Nixon iz Univerze v Glasgowu. Večina članov COAR je na skupščini podprla ta predlog. Trenutno nova fundacija pridobiva status neprofitne organizacije. Njena struktura in način delovanja sta zelo podobna prejšnjemu združenju, vendar prilagojena nizozemski zakonodaji.
Člani prejšnjega združenja COAR e.V. bodo posamezno zaprošeni, da izrazijo svoje soglasje za članstvo v Fondaciji COAR.
Okolje, v katerem delujejo digitalni repozitoriji, se spreminja. Med drugim se vse bolj uveljavljajo načela odprte znanosti, ki zahtevajo prilagoditev delovanja repozitorijev in upoštevanje potreb uporabnikov ter razvoj umetne inteligence. V skladu z novimi potrebami so se v okviru COAR ustanovile delovne skupine, ki se ukvarjajo s specifičnimi problemi. Te skupine so: Iniciativa COAR Notify, Razvoj multijezičnosti v repozitorijih, Strojni dostop in strojno učenje v okviru nove generacije repozitorijev (NGR), Krepitev mrež repozitorijev na nacionalni in regionalni ravni ter Zagovorništvo in promocija nekomercialnega odprtega dostopa ter sodelovanje s skupnostjo diamantnega odprtega dostopa.
V okviru teh delovnih skupin se predstavljajo rešitve na področju strojnega dostopa, strojnega učenja in umetne inteligence v repozitorijih.
Predstavitev rešitev na področju strojnega dostopa, strojnega učenja in umetne inteligence v repozitorijih
Petr Knoth: CORE – Machine learning and AI for and from Open repositories: Unlocking the power of repositories acros use cases requiring machine access to open research (Strojno učenje in umetna inteligenca za odproto dostopne repozitorije: sprostitev moči repozitorijev v različnih primerih uporabe, ki zahtevajo strojni dostop do odprtih raziskav) (Slika 1).
CORE je najpogosteje uporabljen agregator odprto dostopnih člankov, ki jih zajema iz 11.000 repozitorijih univerz in raziskovalnih organizacij. Do julija 2023 ga bo sofinanciral britanski JISC (Joint Information Systems Committee. Ima več kot 20 milijonov aktivnih uporabnikov na mesec, 34 milijonov člankov v polnem besedilu in 260 milijonov metapodatkovnih zapisov. Dr. Knoth, ki skupaj s CORE sodeluje v razvojni skupini COAR, vidi veliko skupnih in komplementarnih točk med CORE in COAR, predvsem v njunem delovanju v okviru odprte znanosti, uporabi umetne inteligence pri razvoju repozitorijev in zavedanju o bogastvu, ki ga predstavljajo mreže odprto dostopnih raziskovalnih repozitorijev.
Današnji znanstveni razvoj zahteva pregledovanje velikih količin znanstvenih virov, kar je mogoče doseči le z uporabo strojev. Redko kateri repozitorij si lahko privošči delovanje izven obstoječih repozitorskih mrež.
Veliko storitev v knjižnicah in v odprtem založništvu lahko izvajamo z aplikacijami, ki temeljijo na umetni inteligenci. Pri sistemskih pregledih se lahko najbolj rutinske oziroma časovno zamudne naloge avtomatizirano izvajajo, na primer vrednotenje citatov (zakaj je nekdo citiran?), avtomatska klasifikacija, odprava podvojenih delov v različnih repozitorijih, izvoz entitet iz raziskovalnih grafikonov (avtor, organizacija itd.).
V CORE so razvili CORE-GPT, novejšo verzijo aplikacije, ki s pomočjo umetne inteligence odgovarja na vprašanja. Odgovori temeljijo na bazi 150.000 znanstvenih prispevkov, ki so dosegljivi preko CORE. Raziskovalcem želijo omogočiti odgovore na vprašanja s področij, ki jih pokrivajo zajeti prispevki. Poleg tega so eksperimentirali s korpusom besedil pri avtomatičnem indeksiranju in vrednotenju citatov. Z vsakim novim testiranjem dosegajo bolj natančne rezultate, saj temelji na strojnem učenju.
Dr. Peter Knoth sodeluje v delovni skupini COAR o razvoju nove generacije repozitorijev. Razvijalci s pomočjo umetne inteligence skušajo izboljšati delovanje repozitorijev. Na primer, pri upravljanju z metapodatki metapodatkovni zapisi ne vsebujejo podatkov o afiliaciji. Vmesnik, ki so ga razvili v CORE, avtomatsko izvleče te informacije iz prispevkov v bazi. Druga funkcionalnost je deduplikacija člankov, kar je posebej pomembno pri agregatorjih. Še ena funkcionalnost je avtomatsko obogatitev podatkov s številkami DOI, grafikoni, slikami itd. Avtomatska klasifikacija se izvaja s strojnim učenjem na podlagi korpusa besedil in je precej natančna.
CORE se bo avgusta 2023 prestrukturiral v člansko organizacijo pod vodstvom Odprte univerze.
Projekt Notify
Iniciativa Notify (Slika 2 in Slika 3) je nastala v okviru delovne skupine o razvoju nove generacije repozitorijev. Namen projekta je razvoj in pospešitev sprejemanja interoperabilnega in decentraliziranega standarda, ki bi omogočal povezavo do raziskovalnih izidov, gostujočih v distribuiranih mrežah repozitorijev, z viri iz zunanjih servisov. Rezultat tega povezovanja so overlay-journals (paberkovalne/prekrivne? revije) in odprte recenzije z uporabo LDN (obvestilo o povezanih podatkih, angl. Linked Data Notification).
Problem je, da se tradicionalne oblike znanstvenega objavljanja osredotočajo na članke, čakalna doba za njihovo objavo je predolga. Spodbujajo objavo člankov samo na področjih, ki so najbolj zanimiva za bralce in najraje v angleščini, pri čemer je objava članka v odprtem dostopu pogosto povezana z visokimi stroški (APC – Article Processing Charges, plačilo za dostop), večinoma so dostopne samo naročnikom in predstavljajo nadaljevanje tradicionalnega tiskanega objavljanja. Posledično ti članki ne dosežejo velikega števila bralcev.
Z objavo v reviji si prizadevamo doseči priznanje intelektualne lastnine, potrditi raziskovalno kakovost, zagotoviti dostopnost in širjenje rezultatov raziskave ter ohraniti prispevek za prihodnost. Vse te cilje je mogoče doseči s konceptom “Objavi-Oceni-Ohrani” (PRC: Publish-Review-Curate). Ta koncept predstavlja konvergence med zelenim odprtim dostopom in zlatim odprtim dostopom ter omogoča nove storitve. Ta novi pristop popolnoma spreminja koncept znanstvenega objavljanja, ki ga skuša realizirati tudi projekt Notify.
Leta 2020 so razvijalci projekta Notify pripravili tehnično arhitekturo, in dve leti pozneje so prejeli štiri milijonsko finančno podporo dobrodelnega sklada Arcadia, ki se zavzema za ohranjanje narave, kulturne dediščine in promocijo odprtega dostopa do znanja.
Notify bo omogočil hitro objavo in širjenje rezultatov raziskav, odprte recenzije, spodbujanje širjenja dragocenih raziskav, vzpostavitev sistema raziskovalne komunikacije kot infrastrukture, upravljanje z odprtimi vsebinami, ki bodo podprle umetno inteligenco in upravljanje metapodatkov ter maksimalno izkoriščanje potenciala odprtega spleta.
Regionalno povezovanje repozitorijev in razvoj politik odprte znanosti
Za dosego večje transparentnosti raziskav in olajšanje izmenjave znanstvenih dosežkov je izjemno pomembno sodelovanje med različnimi mrežami repozitorijev. Običajno se te mreže oblikujejo na regionalni ravni in delujejo kot agregatorji, ki omogočajo širši globalni dostop do rezultatov znanstvenega dela prek izmenjave metapodatkov.
V Združenih državah Amerike (ZDA) šele zdaj gradijo mrežo odprto dostopnih repozitorijev. Raziskava COAR iz leta 2021 je ugotovila, da obstaja veliko samostojnih institucionalnih repozitorijev, ki zaradi občutka samozadostnosti ne sodelujejo z drugimi. V državi ni skupne politike na tem področju. Večina organizacij, ki gostijo takšne repozitorije, se sooča s pomanjkanjem sredstev in zastarelo tehnologijo. V ta namen je bila oblikovana mreža repozitorijev ZDA (USRN), ki tesno sodeluje s SPARC, neprofitno organizacijo, ki podpira razvoj infrastrukture za raziskovalno dejavnost in izobraževanje, ter s COAR. V USRN sodelujejo vsi člani ameriške COAR.
LIBSENSE je mreža mrež repozitorijev v Afriki, katere cilj je širjenje odprte znanosti na afriškem kontinentu. Izhodišče so nacionalne politike odprte znanosti. Najstarejša politika je bila sprejeta v Etiopiji leta 2019 s strani Ministrstva za znanost in visoko šolstvo. Sledila ji je Južnoafriška Republika z osnutkom, ki ga je pripravila leta 2022. Afriške države si prizadevajo razviti politike na področju odprte znanosti. Leta 2022 so se odločile za uporabo odprtokodnega sistema za iskanje, ki ga razvija ASREN in omogoča regionalno platformo za zajem, validacijo, obogatitev in objavo metapodatkov znanstvene produkcije na Arabskem območju. Sodelujejo tudi z La Referencia. Njihovi repozitoriji vsebujejo literaturo v francoščini, arabščini in angleščini.
La Referencia (Slika 4) je najbolj razširjena mreža odprto dostopnih repozitorijev v Latinski Ameriki. Ustanovljena leta 2012 in vključuje dežele Južne in Srednje Amerike in Španijo. Predstavlja mrežo nacionalnih mrež v regiji in širše. Sodelujejo z LIBSENSE in Unescom. Gradijo na interoperabilnosti med znanstvenimi založniki in mrežami repozitorijev. Srečujejo se s problemom bega možganov. Iščejo strategije, ki bi omogočile organizacijam, da se povežejo za skupno financiranje določenega kadra. Nacionalne infrastrukture naj bi omogočile upravljanje in vzdrževanje nacionalne mreže repozitorijev.
SciELO je med prvimi odprto dostopnimi repozitoriji v Južni Ameriki. Nastal je leta 1997 v Braziliji, kar je bilo 4 leta pred pojavom Budimpeštanske deklaracije o odprtem dostopu. SciELO je postal program odprte znanosti, ki zajema 17 nacionalnih zbirk odprto dostopnih revij in repozitorij podatkov. Leta 2020 so ustanovili tudi SciELO preprints, zbirko predobjav. Dve leti pozneje so v repozitorij integrirali aplikacijo PREreview za odprte recenzije.
Problem večjezičnosti v repozitorijih
S problematiko večjezičnosti se ukvarja posebna delovna skupina COAR. Problematiko večjezičnosti so naslovili skozi posebno panelno razpravo, v kateri so sodelovali: Milica Ševkušić, bibliotekarka na Inštitutu tehničnih ved Srbske akademije znanosti in umetnosti ter projektna koordinatorica EIFL OA; Pierre Lassou, bibliotekar na kanadski Univerzi Laval, Tomasz Neugebauer, bibliotekar za digitalne projekte in sistemski razvoj na Univerzi Concordia v Montrealu, Kanada; in Marisa R. De Giusti, glavna raziskovalka Komisije znanstvenih raziskovanj province Buenos Aires (CICBA), Nacionalne univerze v La Plati, Argentina.
Obvladovanje večjezičnosti pri izmenjavi metapodatkov je ključnega pomena za dostop do znanstvenih dosežkov neangleško govorečih raziskovalcev. Večina brskalnikov v razvitem svetu, na primer Google Scholar, išče besedila in metapodatke v jeziku uporabnika. Težko dostopajo do znanstvenih informacij v drugih jezikih, ker metapodatki niso prevedeni ali ustrezno označeni.
Uporabniki želijo najti znanstvene članke, ki obravnavajo njihovo področje raziskovanja, ne glede na jezik publikacije. Za upravljavce repozitorijev je pomembno vedeti, kako optimalno označiti članke, disertacije ali druga visokošolska dela, ki so zapisana v več jezikih. Hkrati želijo omogočiti večjo vidnost vsebin, ki jih hranijo v repozitorijih. Za agregatorje ali iskalnike je pomembno, da identificirajo jezik, v katerem je indeksirano celotno besedilo, da lahko uporabniku omogočijo najti ustrezen jezik.
Milica Ševkušić je imela zelo zanimivo predstavitev raziskave o zajemu starih jezikov v drugih evropskih jezikih s pomočjo sistemov, ki podpirajo različne jezikovne standarde. Kot primer je navedla ISO-8859 ali Windows-1252, ki ne vključujeta črk s srednjeevropskimi diakritičnimi znaki. Windows 1250 vsebuje srednjeevropske šumnike in druge črke z diakritičnimi znaki, Windows 1251 pa je namenjen cirilici. Ševkušićeva je opozorila, da pri pretvorbi iz enega jezika v drugega z različnimi abecedami slovnična pravila variirajo. Pri tem se lahko uporabi transliteracija (označevanje črk enega jezika in abecede s podobnimi črkami v drugem jeziku), transkripcija (dobesedna pretvorba izgovorjave iz enega jezika v drugi jezik) ter romanizacija (transliteracija tujega jezika v latinsko pisavo). (Slika 5).
Te različne prakse lahko vplivajo na slabo interoperabilnost (izmenjavo metapodatkov) med repozitoriji v različnih jezikih. Problem je večji, ko se v mrežo vključujejo bolj kompleksni jeziki, kot so kitajščina, japonščina in drugi.
Predvsem pri izmenjavi metapodatkov in normalnem delovanju mreže repozitorijev se pogosto dogaja, da se transliterirani podatki prevzemajo iz drugih sistemov, ni doslednih pristopov, nekateri zapisi so transliterirani, drugi ne itd. Dodatni problemi nastanejo pri sortiranju rezultatov, saj vrstni red črk ni enak v vseh abecedah.
Njeno priporočilo je, da se v repozitoriju usposobi podpora UTF-8, da se uporabi izvirna abeceda vsakič, ko je to možno. Če pa pride do transliteracije, je treba pojasniti, katere standarde uporablja repozitorij.
Preostale predstavitve so bile bolj tehnično naravnane. Pierre Lasou in Tomasz Neugebauer sta predstavila podporo za večjezičnost v iskalnikih odprtokodnih repozitorijev v Dspace in Eprints. Di Gusti pa je predstavila, kako uporabiti oznake jezikov v repozitoriju SEDICI (Institucionalni repozitorij Nacionalne univerze v La Plati, Argentina).
Poleg opisanih vsebin je bilo govora tudi o repozitorijih predobjav, kako indeksirati njihove vsebine in kako jih pravilno označevati, da bodo bolj prepoznavne. Prikazana je bila tudi izvedena raziskava o stanju odprtih repozitorijev v Evropi in podobno. Zanimiva je tudi iniciativa COAR o gradnji mednarodnega direktorija odprtodostopnih repozitorijev (IRD). Do nedavnega je bil OpenDOAR edini direktorij, ki je omogočal iskanje po odprtih virih. Razlogi za to iniciativo so, da podatki v OpenDOAR niso vedno ažurni, približno 20 odstotkov zapisov nima pravilnih URL-jev, in 50 odstotkov virov nima delujoče točke OAI-PMH. Poleg tega je vnos novih repozitorijev v direktorij zelo zamuden, in licenciranje v OpenDOAR ni povsem jasno.
Vabljeno predavanje
Marin Dacos, francoski nacionalni koordinator za odprto znanost, Ministrstvo za visoko šolstvo in raziskovanje, Francija: Ali res potrebujemo dodatnih 30 let za uresničevanje odprte znanosti? (»Do we really need another 30 years to achieve open science?«).
Prizadevanja za odprto znanost segajo v leto 1991 z vzpostavitvijo repozitorija znanstvenih objav ArXiv. V devetdesetih letih so nastajale različne praktične pobude znanstvenikov, ki so sami razvijali orodja za razširjanje svojih raziskav (Scielo 1998, Erudit 1998, Open Edition 1999, Open Journal Systems 2001…). V prvem desetletju drugega tisočletja se je razvila politika odprte znanosti. Znanstvene skupnosti so sprejele manifeste in politična načela (Budapest Open Access Initiative – 2002, Berlinska deklaracija – 2003, DORA – Deklaracija o evalvaciji znanosti v San Franciscu, Načela infrastrukture za odprto znanost – 2020). Temu obdobju je sledilo desetletje javnih politik, ki so jih sprejele raziskovalne organizacije, državni organi in mednarodne organizacije (Priporočila OECD – 2007, Evropska priporočila – 2012, Amsterdamski poziv za delovanje v odprti znanosti – 2016, Priporočila UNESCO – 2021, Sklepi Evropskega sveta – 2022 in G7 odprta znanost in G20 – 2023, Coalition S – 2018, ustvarjajo se Skladi odprte znanosti: SCOSS, Nacionalni skladi itd., Openaire – 2021, Open Research Europe – 2021, COARA – Coalition for advancing research assessment – 2022 in mnoge druge pobude, ki potrebujejo usklajevanje).
Trend je iz leta v leto bolj pozitiven. Vendar pa je delež odprto dostopnih znanstvenih del, kljub tridesetletni politiki na področju odprte znanosti, še vedno majhen. Na primer, v Franciji so se cene plačil za objavo člankov (APC-ji) povečale trikrat in leta 2020 dosegle skupno vrednost 30 milijonov evrov, kar je predstavljalo četrtino vseh odprtih znanstvenih objav. Model APC-jev nedvomno prinaša velike dobičke založnikom. Sami lahko izračunamo: če se vsako leto objavi 8 milijonov člankov in je strošek objave enega članka približno 2000 evrov, bi založniki letno ustvarili 16 milijard evrov dobička! V desetih letih bi z 1-odstotnim povišanjem cene zaslužili 17,5 milijard evrov, z 2,5-odstotnim povišanjem pa 20 milijard evrov. Cene pa so se leta 2023 dvignile za 15 odstotkov!!!
V času pandemije so bile sprejete politike na nacionalni ravni v zvezi s shranjevanjem raziskovalnih podatkov in načeli FAIR (Findable, Accessible, Interoperable, Reusable – Najdljivi, Dostopni, Interoperabilni, Ponovno uporabni). Kljub temu je do danes samo 6,8 odstotkov raziskovalcev, ki so sodelovali v znanstvenih raziskavah, oddalo zahtevane podatke. Evropska regulativa se izvaja zelo težko, kar je še posebej vidno pri kliničnih preizkusih. Leta 2022 je akademska sfera sponzorirala le 31 odstotkov takšnih raziskav, medtem ko je bil delež industrijskega sponzorstva 77 odstoten, drugih pa 57 odstoten.
Čas je za ukrepanje. Julija 2021 je francosko Ministrstvo za visoko šolstvo in raziskave sprejelo drugi načrt za vzpostavitev odprte znanosti. Na podlagi izkušenj zadnjih nekaj let so sprejeli sklep, da se morajo politike odprte znanosti prilagoditi specifičnosti različnih disciplin. Potrebna bo reforma sistemov vrednotenja znanstvenega dela, uvedba večjezičnih sistemov in ustvarjanje zmogljivosti za akademsko znanstveno objavljanje. Ustanovljeno je bilo združenje COARA (Coalition for aAdvancing Research Assessment), ki naj bi spodbudilo reformo vrednotenja znanosti. Potrebo po reformi vrednotenja znanstvenega dela so podprli tudi ministri za znanost in tehnologijo skupine G7 na posvetu v Sendaiu. Spodbujati naj bi se začelo tudi gradnjo in razvoj infrastruktur odprte znanosti, ki bi omogočale mednarodno sodelovanje. Problem pa je, kako spremljati uspešnost sprejetih politik in reform? S pomočjo umetne inteligence so na francoskem Ministrstvu za visoko šolstvo in raziskovanje ugotovili, da je v letu 2021 le 22 odstotkov francoskih publikacij delilo ali navajalo uporabo podatkov iz drugih raziskav.
Drugi problem predstavljajo mehanizmi sofinanciranja različnih infrastruktur odprte znanosti. Omenil je SCOSS (Globalna trajnostna Koalicija za storitve na področju odprte znanosti), ki je bila ustanovljena v letu 2017. SCOSS skuša ovrednotiti potrebe po sofinanciranju, skrbi za transparentnost cen in veča učinkovitost investitorjev. Obstaja tudi Nacionalni sklad odprte znanosti, ki sofinancira objave v diamantnem odprtem dostopu in skrbi za povezovanje med publikacijami, podatki in računalniškimi kodami. Podpira tudi inovativne uredniške politike glede recenzij, skupnega pisanja itd.
Marin Dercos je svoje predavanje zaključil z vprašanjem, kdaj bomo resnično uspeli v celoti uresničiti načela odprte znanosti. Ali bo treba še počakati 30 let, da se to zgodi?
Na koncu naj še opozorim na sklepe Sveta EU, ki jih je sprejel 23. maja 2023, o »Visokokakovostnem, transparentnem, odprtem, verodostojnem in enakopravnem znanstvenem publiciranju«, ki favorizirajo neprofitne modele znanstvenega publiciranja, za kar se zavzema tudi COAR. Sklepi Evropskega sveta poudarjajo potrebo po takojšnjem in neomejenem odprtem dostopu do javno sofinanciranih znanstvenih del ter transparentnost pri oblikovanju cen, ko stroškov objav ne krijejo avtorji. Poudarjajo pomen neprofitnega znanstvenega odprtokodnega sofinanciranja, ki ne temelji na različnih modelih sofinanciranja objav, kot je npr. APC ali podobno. Spodbujajo razvoj institucionalnih ter drugih politik in strategij neprofitnega financiranja znanstvenega publiciranja, ki ne bo zahteval nobenih plačil s strani avtorjev ali bralcev.
Dostopna je spletna stran s povezavami do drsnic predavanj.