Abstract | Open data are an extremely valuable information technology resource for economic, social, and human development, adding new values to the development of society. More and more countries around the world are establishing open data portals at national, regional, and local levels, and the amount of available open data is growing. The usability of open data depends on the quality of their metadata, the evaluation of which is an open research question. The main objective of the research is to develop a theoretical framework of open metadata quality and to operationalise it through a new composite indicator that enables the comparison of open datasets metadata. The research approach is based on the Methodological framework for design science research and the Methodology for constructing composite indicators, involving predominantly quantitative and, to a minor extent, qualitative research methods. The combina tion of these two methodologies helped meetthe requirements forensuring scientific contribution in the construction of the composite indicator and for achieving greater practical relevance of the scientific results within the area of information technology and information systems. The scientific contributions are achieved through the development of a framework and com posite indicator, a better understanding of the concept of open (meta)data quality, and empirical research of the public sector metadata quality. This research also contributes to practise. One of the most important practical contributions is that the developed composite indicator for the metadata quality of open datasets can be used for benchmarking purposes. |
Abstract (croatian) | Otvoreni podaci izrazito su vrijedan resurs informacijske tehnologije za ekonomski, socijalni i ljudski razvoj koji dodaje nove vrijednosti razvoju društva. Sve više država u svijetu uspostavlja portale otvorenih podataka na nacionalnoj, regionalnoj i lokalnoj razini, čime raste količina dostupnih otvorenih podataka. Iskoristivost otvorenih podataka ovisi o kvaliteti njihovih metapodataka, čije je vrednovanje otvoreno istraživačko pitanje. Stoga je glavni cilj istraživanja razviti teorijski okvir kvalitete otvorenih metapodataka i operacionalizirati ga kroz novi kompozitni indikator koji će omogućiti usporedbu metapodataka otvorenih skupova podataka. U prvom dijelu prvog poglavlja predstavljeno je područje istraživanja. Istaknuta je uloga i značaj otvorenih podataka za napredak društva, dan je kratak povijesni pregled ključnih događaja s naglaskom na područje Sjeverne Amerike i Europe te su izdvojeni izazovi i prepreke koji utječu na razvoj otvorenih podataka. Kao jedna od prepreka koje mogu negativno utjecati na uspjeh otvorenih podatka navodi se kvaliteta otvorenih (meta)podataka. Stoga je napravljen pregled postojećih istraživanja koja se bave kvalitetom otvorenih (meta)podataka te su uočeni nedostaci, također istaknuti u sklopu ovog poglavlja. U drugom dijelu prvog poglavlja, u vezi s identificiranim istraživačkim problemom koji se odnosi na upitnu kvalitetu otvorenih (meta)podataka, definirano je pet ciljeva istraživanja: sintetizirati rezultate prethodnih istraživanja na temu kvalitete otvorenih (meta)podataka i dimenzija identificiranih u svrhu mjerenja istih (C1), definirati teorijski okvir kvalitete metapodataka otvorenih skupova podataka (C2), prikupiti i organizirati podatke o metapodacima s portala otvorenih podataka (C3), definirati kompozitni indikator kvalitete metapodataka otvorenih skupova podataka (C4) te izračunati vrijednosti kompozitnog indikatora na prikupljenim podacima (C5). Uz ciljeve definirana su tri istraživačka pitanja: „Koje su ključne dimenzije kvalitete metapodataka otvorenih podataka?”, „Kako mjeriti identificirane dimenzije kvalitete metapodataka?” i „Kako procijeniti kvalitetu metapodataka?”. Također, postavljena je hipoteza vezana uz operacionalizaciju teorijskog okvira kvalitete metapodataka otvorenih skupova podataka koja glasi: Razvijeni kompozitni indikator kvalitete metapodataka otvorenih skupova podataka robustan je. U trećem dijelu prvog poglavlja predstavljen je teorijski i konceptualni okvir istraživanja. Navedene su teorije na kojima se temelji istraživanje, uključujući i metodološke teorije. Istraživanje se temelji na kombinaciji dviju metodologija: metodološkog okvira znanosti o dizajniranju i metodologije za konstruiranje kompozitnih indikatora. Sinergija tih dviju metodologija može pomoći u ispunjavanju zahtjeva za osiguravanjem znanstvenog doprinosa u izradi kompozitnih indikatora, kao i u ispunjavanju zahtjeva za većom praktičnom relevantnošću znanstvenih rezultata u području informacijskih tehnologija i informacijskih sustava. Stoga su aktivnosti metodološkog okvira znanosti o dizajniranju povezane s koracima metodologije za konstruiranje kompozitnih indikatora. U drugom poglavlju prikazani su sustavi za upravljanje podacima koji se koriste za otvorene podatke javnih uprava te je predstavljen povijesni razvoj metapodataka, njihove osnovne komponente, međunarodne norme relevantne za metapodatke te rezultati prethodnih istraživanja kvalitete metapodataka. Također, napravljena je harmonizacija metapodatkovnih polja dvaju relevantnih metapodatkovnih standarda koji definiraju strukturu i semantiku podataka te istovremeno omogućuju bilježenje informacija o skupovima podataka. Rezultati harmonizacije metapodatkovnih polja relevantnih metapodatkovnih standarda (ISO/IEC 11179 i DCAT 2) dostupni su u otvorenom pristupu u repozitoriju otvorenih znanstvenih podataka Harvard Dataverse. U trećem poglavlju opisana je metodologija rada koja objedinjuje dva metodološka pristupa: metodološki okvir znanosti o dizajniranju i metodologiju za konstruiranje kompozitnih indikatora. Istraživanje je provedeno slijedeći aktivnosti metodološkog okvira znanosti o dizajniranju i odgovarajuće korake metodologije za konstruiranje kompozitnih indikatora. Nadalje, u ovom istraživanju korištene su pretežno kvantitativne, a u manjoj mjeri i kvalitativne istraživačke metode. U četvrtom poglavlju prikazani su rezultati istraživanja. U prvom dijelu ovog poglavlja prikazani su rezultati istraživanja teorijskog okvira kvalitete metapodataka koji se oslanja na sustavni pregled literature, analizu i mapiranje metapodatkovnih polja različitih međunarodnih standarda i specifikacija sustava za upravljanje otvorenim podacima te istraživanje mišljenja stručnjaka s ciljem provjere sadržajne valjanosti. Inicijalno razvijen teorijski okvir kvalitete metapodataka otvorenih skupova podataka sadrži 71 individualni indikator, od kojih svaki pripada jednoj od osam dimenzija s obzirom na svojstva metapodataka i jednoj od pet dimenzija s obzirom na svojstva skupova podataka (dostupan je u otvorenom pristupu na repozitoriju Harvard Dataverse). Provjerom sadržajne valjanosti razvijenoga teorijskog okvira relevantnima su se pokazala 32 individualna indikatora. Relevantni indikatori raspoređeni su u šest dimenzija s obzirom na svojstva metapodataka te u pet dimenzija s obzirom na svojstva skupova podataka. U drugom dijelu poglavlja prikazani su koraci u razvoju i validaciji kompozitnog indikatora te rezultati empirijskog istraživanja na uzorku otvorenih podataka preuzetih s dvaju portala otvorenih skupova podataka, koji su bazirani na različitim sustavima za upravljanje metapodacima. Izgradnja kompozitnog indikatora kvalitete metapodataka otvorenih skupova podataka temeljila se na teorijskom okviru, a uključivala je: dohvaćanje metapodataka otvorenih skupova podataka s odabranih portala otvorenih podataka (slučajno odabranih 4820 skupova otvorenih podataka s dvaju portala otvorenih podataka, portala otvorenih podataka EU-a i australskog portala otvorenih vladinih podataka), mapiranje metapodatkovnih polja odabranih portala na metapodatkovna polja navedena u relevantnim metapodatkovnim standardima (pojedina metapodatkovna polja nisu pronađena ni na jednom od odabranih portala), izračunavanje vrijednosti/skorova relevantnih individualnih indikatora, analiziranje izračunatih vrijednosti multivarijatnom analizom, određivanje relativne važnosti odnosno pondera individualnih indikatora i dimenzija analitičkim hijerarhijskim procesom te agregiranje vrijednosti u jednu vrijednost, tzv. skor kompozitnog indikatora, primjenom linearne agregacije. Ponderi individualnih indikatora i dimenzija, izračunati skorovi individualnih indikatora te skorovi (pod)dimenzija i kompozitnog indikatora dostupni su kao otvoreni znanstveni podaci na repozitoriju Harvard Dataverse. Kompozitni indikator validiran je evaluacijom robusnosti razvijenoga kompozitnog indikatora, što je uključivalo primjenu analize osjetljivosti i analize nesigurnosti. U petom poglavlju najprije su predstavljeni rezultati istraživanja u kontekstu postavljenih ciljeva, istraživačkih pitanja i hipoteza. Tako je u sklopu prve aktivnosti Objašnjenje problema dobiven odgovor na prva dva istraživačka pitanja. Odgovor na istraživačko pitanje „Koje su ključne dimenzije kvalitete metapodataka otvorenih podataka?” glasi: Pet je dimenzija kvalitete metapodataka otvorenih skupova podataka s obzirom na svojstva skupova podataka, a to su pronalažljivost, dohvatljivost, interoperabilnost, ponovna upotrebljivost i kontekstualnost. Osam je dimenzija kvalitete s obzirom na svojstva samih metapodataka, a to su potpunost, usklađenost, koherentnost, točnost, otvorenost, dohvatljivost, razumljivost i pravovremenost. Odgovor na istraživačko pitanja „Kako mjeriti identificirane dimenzije kvalitete metapodataka?” glasi: Identificirane dimenzije kvalitete metapodataka mjerimo pomoću indikatora kvalitete za metapodatke otvorenih skupova podataka, tj. primjenom metrika nad svojstvima/atributima. U sklopu prve aktivnosti ostvaren je i prvi cilj istraživanja (C1). Drugi cilj istraživanja (C2) ostvaren je u aktivnosti Definiranje zahtjeva. Dva cilja (C3 i C4) ostvarena su u sklopu aktivnosti Dizajn i razvoj artefakta. Peti cilj istraživanja (C5) te treće istraživačko pitanje pokriveni su aktivnošću Demonstracija artefakta. Odgovor na istraživačko pitanje „Kako procijeniti kvalitetu metapodataka?” glasi: Kvaliteta metapodataka otvorenih skupova podataka procjenjuje se primjenom kompozitnog indikatora, koji je razvijen na temelju teorijskog okvira kvalitete metapodataka otvorenih skupova podataka, na podacima. Rezultatima aktivnosti Evaluacija artefakta potvrđena je postavljena hipoteza da je razvijeni kompozitni indikator kvalitete metapodataka otvorenih skupova podataka robustan. Drugi dio petog poglavlja sadrži sažetu usporedbu rezultata provedenog istraživanja s prethodnima, usko povezanima s fokusom i naporima ovog istraživanja, da bi se naglasila važnost i doprinos provedenog istraživanja za područje otvorenih podataka. Također, peto poglavlje sadrži opis ograničenja provedenog istraživanja, od kojih su neka istaknuta u nastavku. Jedno je od ograničenja da su i procesi i rezultati aktivnosti Objašnjenje problema do određene mjere subjektivni te ovise o znanju i vještinama autorice. Primjerice, proces usklađivanja atributa metapodataka različitih metapodatkovnih standarda podložan je mogućim pogrešnim tumačenjima jer se usklađivanje provodi mapiranjem atributa na temelju njihovog semantičkog značenja. Nadalje, budući da su skripte u programskom jeziku R razvijene za analizu podataka uz primjenu odgovarajućih istraživačkih metoda unutar gotovo svih aktivnosti metodološkog okvira, postoji mogućnost da je došlo do defekata tijekom implementacije. U šestom, završnom poglavlju navedeni su znanstveni doprinosi istraživanja, a to su: sistematizacija i sinteza dosadašnjeg znanja u domeni kvalitete otvorenih (meta)podataka i dimenzija identificiranih u svrhu mjerenja istih, razvoj teorijskog okvira kvalitete metapodataka otvorenih skupova podataka, razvoj kompozitnog indikatora kvalitete metapodataka otvorenih skupova podataka, rezultati empirijskog istraživanja kvalitete metapodataka otvorenih podataka. Ujedno je detaljnije opisano kako je svaki od prethodno navedenih doprinosa postignut. Osim znanstvenih doprinosa istraživanja, u završnom poglavlju istaknuti su i praktični doprinosi, a neki od njih navedeni su u nastavku. Razvijen i validiran teorijski okvir obuhvaća dva pogleda na procjenu kvalitete metapodataka otvorenih skupova podataka: prvi, koji više preferira akademska zajednica, usmjeren je na svojstva metapodataka, dok je drugi, koji više preferira praktična zajednica, usmjeren je na svojstva skupova podataka. Nadalje, ustanovljeno je da na vrlo velikom slučajnom uzorku otvorenih skupova podataka nedostaju metapodatkovna polja za pojedine indikatore kvalitete koje stručnjaci smatraju relevantnima. Također, samo manji dio promatranih skupova podataka postigao je višu vrijednost kompozitnog indikatora. Među ostalim doprinosima, razvijeni kompozitni indikator pokazao se kao korisno sredstvo za usporedbu različitih skupova otvorenih podataka i portala koji ih nude. Poglavlje završava prijedlogom smjernica za buduća istraživanja s ciljem rasta i razvoja otvorenih podataka. To uključuje, među ostalim, implementaciju razvijenoga kompozitnog indikatora kao interaktivne web aplikacije koristeći paket Shiny programskog jezika R te ispitivanje povezanosti razvijenoga kompozitnog indikatora s drugim pokazateljima različitih karakteristika javne uprave (transparentnost i otvorenost, razvijenost e-uprave, uključenost građana, inovacijska sposobnost) i dr. |