Sažetak (hrvatski) | Doktorska disertacija strukturirana je u sedam poglavlja: uvod, srodna literatura, specifikacija problema, metodologija, eksperimenti te zaključci, pružajući jasan put kroz provedeno istraživanje i njegove implikacije za budući rad u ovom području.
Prvo poglavlje uvodi sve veći izazov detekcije osjetljivih podataka zbog masovnog povećanja podataka na internetu. Ovaj porast digitalnih informacija, posebice u posljednjem desetljeću, doveo je do značajnih napredaka u različitim područjima kao što su zdravstvo i financije. Međutim, to je također povećalo zabrinutost za privatnost i sigurnost podataka, najviše u pogledu osjetljivih informacija kao što su osobno identificirajuće informacije (engl. \textit{Personally Identifiable Information}, PII). Razjašnjavaju se razlike između osobnih podataka, osjetljivih podataka i PII, te se ističe potreba za zaštitom osjetljivih informacija od neovlaštenog pristupa. Također, ističe se globalni zakonodavni odgovor na ove probleme privatnosti.
Fokusirajući se na detekciju strukturiranih podataka, u prvom poglavlju ustanovljava se ovo područje kao nedovoljno istraženo u usporedbi s područjem detekcije u nestrukturiranim podacima. Predlaže se nova metoda koja koristi mješavinu modela strojnog učenja temeljenih na aktivnom kontekstu kao i pristupe zasnovane na pravilima kako bi poboljšala točnost detekcije u strukturiranim podacima. Opisuju se doprinosi, uključujući novu metodu detekcije, referentni skup podataka za detekciju strukturiranih podataka, istraživanje alternativnih pristupa i sveobuhvatni eksperimenti za vrednovanje predloženog rješenja.
Drugo poglavlje konstatira potrebu za automatiziranim metodama za pronalazak i zaštitu osjetljivih podataka. Ta potreba je porasla zbog stalnog rasta količine digitalnih podataka, dok se pravila o čuvanju tih podataka neprestano mijenjaju. Ručna provjera svih tih podataka više nije izvediva. Veliki dio pronalaženja osjetljivih podataka u strukturiranim podacima (kao što su tablice baza podataka sa stupcima i retcima) je utvrđivanje koji stupci sadrže osjetljive informacije te, ako ih sadrže, koja vrsta osjetljivih podataka se u njima nalazi. To je slično širem zadatku nazvanom semantičko označavanje stupaca, gdje je cilj sortirati podatke u općenite kategorije (ne samo u osjetljive podatke). Budući da je pronalaženje osjetljivih podataka u strukturiranim podacima novije područje istraživanja, ovo poglavlje također istražuje postojeće pristupe rješavanju problema semantičkog označavanja stupaca kako bi se pronašli načini za poboljšanje metode predložene u ovoj disertaciji.
U istraživanju rješenja za detekciju osjetljivih podataka, drugo poglavlje pregledava različite metode, dijeleći ih na dvije glavne kategorije: metode zasnovane na pravilima i metode zasnovane na strojnom učenju. Svaki od ovih pristupa ima svoj skup prednosti i izazova kada se primjenjuju na zadatak ustanovljavanja osjetljivih podataka unutar strukturiranih skupova podataka. Metode zasnovane na pravilima oslanjaju se na unaprijed definiran skup pravila ili uzoraka za identifikaciju osjetljivih podataka. Ta pravila su obično razvijena na temelju stručnog znanja i vrlo su specifična u tome što čini osjetljive informacije. Na primjer, uzorci poput brojeva socijalnog osiguranja ili e-mail adresa mogu se izravno identificirati kroz specifične, dobro definirane formate. Iako su metode zasnovane na pravilima jednostavne i jednostavno ih je interpretirati, glavno ograničenje im je nedostatak fleksibilnosti te nemogućnost definiranja ograničavajućih pravila za neke od kategorija.
S druge strane, metode zasnovane na strojnom učenju nude dinamičniji pristup detekciji osjetljivih podataka. Za razliku od metoda zasnovanih na pravilima, algoritmi strojnog učenja uče iz primjeraka podataka. To znači da potencijalno mogu identificirati nove vrste osjetljivih informacija bez izričitog programiranja. Pristupi strojnom učenju kreću se od tradicionalnih algoritama poput stabala odlučivanja i strojeva s potpornim vektorima do naprednijih modela neuronskih mreža, uključujući rekurentne neuronske mreže (RNN), mreže dugog kratkotrajnog pamćenja (LSTM) i transformere poput BERT-a. Ti modeli mogu otkriti složene obrasce u podacima, čineći ih posebno učinkovitima za detekciju osjetljivih informacija u nestrukturiranim podacima ili u slučajevima kada je važan kontekst oko podatka.
Drugo poglavlje također daje uvid u različite metode predstavljanja ulaza vektorskim reprezentacijama (engl. \textit{embeddings}) te različitih metoda za njihovu izgradnju. Te metode pomažu pretvoriti složene podatke u jednostavniji oblik koji potencijalno može razumjeti semantičko značenje prirodnog jezika. Detaljno se objašnjava zašto su te različite metode ugrađivanja važne i kako se mogu koristiti za razumijevanje podataka. To postavlja temelje za specifičan pristup predložen u ovoj disertaciji za detekciju osjetljivih podataka u strukturiranim skupovima podataka. Nakon toga, slijedi uključivanje tabličnog konteksta (različite ćelije iz iste baze podataka) i koji su trenutačni pristupi takvom problemu. Prikazuje da se trenutačno koristi statičan način uključivanja konteksta, otvarajući novi pravac za istraživanje aktivnijih pristupa.
Poglavlje tri opisuje razvoj novog skupa podataka, nazvanog DeSSI, dizajniranog za izazov detekcije osjetljivih podataka unutar strukturiranih skupova podataka. Adresirajući ograničenja postojećih resursa, ovaj skup podataka kombinira sintetičke podatke s pseudo-anonimiziranim stvarnim podacima kako bi ponudio sveobuhvatan alat za učenje i evaluaciju metoda detekcije osjetljivih podataka. Skup podataka ima za cilj obuhvatiti razne vrste podataka, uključujući razne vrtse osobnih podataka kako bi odražavao složenost detekcije osjetljivih podataka. Stvaranje ovog skupa podataka uključivalo je prevladavanje nekoliko izazova, a posebice zabrinutost za privatnost podataka i potrebu za raznolikom reprezentacijom vrsta osjetljivih podataka. Sintetički dio skupa podataka generiran je kako bi obuhvatio širok raspon scenarija osjetljivih podataka, dok su stvarni podaci, dobiveni iz javno dostupnih skupova podataka, pažljivo anonimizirani kako bi se osigurala privatnost. Ovaj hibridni pristup ne samo da poboljšava relevantnost skupa podataka za zadatke detekcije osjetljivih podataka već i zaobilazi ograničenja povezana s korištenjem isključivo sintetičkih ili stvarnih podataka. Ovo poglavlje konstatira važnost izrade skupa podataka koji odražava složenost i varijabilnost osjetljivih informacija u stvarnim scenarijima. DeSSI uključuje preko 31.000 stupaca baze podataka, sadrži mješavinu različith vrsta podataka i uključuje i sintetičke i pseudo-anonimizirane stvarne podatke. Kako bi simulirao stvarne izazove, skup podataka uključuje postojeća ili odsutna zaglavlja stupaca, te time osigurava korisnost u nesavršenim uvjetima mogućim u stvarnim situacijama.
Poglavlje četiri uvodi novu metodu razvijenu za rješavanje izazova detekcije osjetljivih podataka unutar strukturiranih skupova podataka. Prepoznata su ograničenja postojećih pristupa, koji se kreću od sustava zasnovanih na pravilima do jednostavnijih modela strojnog učenja. Ovo poglavlje opisuje razvoj rješenja zasnovanog na strojnom učenju, posebice uz korištenje mogućnosti kontekstualiziranih vektorskih reprezentacija kako bi se poboljšala sposobnost modela za razumijevanje i obradu prirodnog jezika pronađenog unutar ćelija baze podataka. Začetak ove metode bio je pod utjecajem spoznaje da ni sustavi zasnovani na pravilima ni jednostavni modeli strojnog učenja ne hvataju dovoljno nijansirane odnose između značajki podataka i oznaka potrebnih za učinkovitu detekciju osjetljivih podataka. To je dovelo do usvajanja naprednije strategije, usmjerene na korištenje BERT-a (bidirekcijske reprezentacije kodera iz transformatora) za generiranje kontekstualiziranih vektorskih reprezentacija. Tako se nudi dinamička reprezentacija riječi u kontekstu, te se omogućuje dublje razumijevanje prirodnog jezika i značajno poboljšava sposobnost modela da točno ustanovi osjetljive podatke.
Da bi se prilagodila jedinstvenoj strukturi stupaca baze podataka i raznolikosti podataka koje sadrže, ova metoda predlaže novu tehniku formiranja ulaza. Ta tehnika kombinira zaglavlje stupca s vrijednostima ćelija, odvojenim posebnim znakovima za odvajanje, u jedan ulazni niz. Ovaj pristup osigurava da BERT može istovremeno razmatrati više vrijednosti ćelija, uključujući i unutarćelijski i međućelijski kontekst u svojoj analizi. U disertaciji se takav pristup opisuje kao aktivni pogled na kontekst koji sadrži jednu razinu apstrakcije manje nego dotadašnji statički pogled te time omogućuje modelu direktan uvid u ulazne podatke pri stvaranju vektorskih reprezentacija stupaca. Metoda transformira cijeli stupac baze podataka u ulazni niz za model, te demonstrira sposobnost metode da sačuva i iskoristi prirodni kontekst podataka.
Značajan izazov kojim se ova metoda bavi je ograničenje nametnuto maksimalnim brojem ulaznih tokena BERT-a. Kako bi se izbjegao potencijalni gubitak informacija zbog skraćivanja ulaza, metoda koristi strategiju dijeljenja i zasebne obrade dijelova stupaca koji premašuju ograničenje broja tokena. To osigurava sveobuhvatno pokrivanje podataka uz očuvanje integriteta kontekstualnih informacija. Osim osnovnog pristupa zasnovanog na strojnom učenju, metoda uključuje tehniku zasnovanu na pravilima u fazi naknadne obrade za određene vrste osjetljivih podataka. Ovaj hibridni pristup omogućava preciznu identifikaciju vrsta osjetljivih podataka koji se pridržavaju specifičnih formata ili pripadaju poznatim podskupovima, kao što su brojevi kreditnih kartica ili nacionalni identifikacijski brojevi. Integracijom logike zasnovanoj na pravilima model dobiva dodatni sloj specifičnosti koji poboljšava njegovu ukupnu točnost u detekciji osjetljivih podataka.
Peto poglavlje produbljuje alternativne arhitekturalne pristupe za model detekcije osjetljivih podataka, što je motivirano težnjom za poboljšanjem i optimizacijom njegove izvedbe. Budući da hiperparametri strojnog učenja značajno utječu na njegovo ponašanje i ishode, ovo poglavlje istražuje više od same prilagodbe hiperparametara, te predlaže izmjene temeljne strukture samog modela. Takve arhitekturalne promjene ne ciljaju samo na prilagodbu hiperparametara već na temeljitu promjenu pristupa modela obradi i analizi podataka. Ovo istraživanje uključuje i pojednostavnjenja i unaprjeđenja inicijalno predloženog modela. Alternative se kreću od jednostavne metode koja izostavlja konkatenaciju stupaca do složenijih strategija koje aktivno uključuju podatke iz susjednih stupaca, bilo statički ili dinamički. Svaki pristup procjenjuje se s obzirom na njegov potencijal da postigne ravnotežu između računalne učinkovitosti i dubine kontekstualnog razumijevanja.
Prva opisana alternativa razmatra arhitekturu modela bez konkatenacije podataka stupaca, čime pojednostavljuje unos tako da on stane unutar BERT-ovog ograničenja broja tokena, bilo sekvencijalno bilo nasumično. Ovaj pristup ima za cilj smanjenje vremena izvršavanja ograničavanjem modela na obradu jednog unosa za svaki stupac, čime se smanjuju računalni zahtjevi. Međutim, ova jednostavnost donosi rizik da se zanemare složeni ili višestruki tipovi osjetljivih podataka unutar stupca zbog ograničenog opsega podataka koji se uzimaju u obzir u analizi. Proširujući kontekstualni opseg modela, sljedeće alternative istražuju uključivanje podataka iz susjednih stupaca. Te metode pretpostavljaju da susjedni stupci mogu ponuditi vrijedan kontekst koji bi mogao poboljšati sposobnost modela za detekciju osjetljivih informacija. Predlažu se dvije metode: jedna u kojoj se vektorska reprezentacija susjednih stupaca generira unaprijed i statički se uključuje, i druga koja aktivno integrira podatke susjednih stupaca na ulazu u metodu strojnog učenja. Iako ove metode teže iskorištavanju šireg konteksta podataka, suočavaju se i s povećanom složenošću modela i inherentnim izazovom učinkovitog učenja na skupovima podataka s varijabilnim brojem stupaca.
Poglavlje šest produbljuje eksperimente provedene za vrednovanje učinkovitosti predložene metode za detekciju osjetljivih podataka u strukturiranim skupovima podataka. Koristi se biblioteka FLAIR i ispituju se različite konfiguracije kako bi se pronašle optimalne postavke za hiperparametre stope učenja, epohe, veličine grupe podataka za učenje i više, a pritom se koristi destilirana verzija BERT-a i optimizator AdamW za učinkovito učenje. U poglavlju se raspravlja o metrikama vrednovanja koje se koriste za procjenu učinkovitosti modela te se ističe važnost mjere prisjećanja (engl. \textit{recall}) za detekciju osjetljivih podataka. Naime, važno je minimizirati lažno negativne rezultate, gdje se osjetljivi podaci pogrešno ne identificiraju, zbog potencijalnih ozbiljnih kršenja privatnosti. Nasuprot tome, lažno pozitivni primjerci, iako manje poželjni, smatraju se manje štetnima jer samo rezultiraju nepotrebnim zamagljivanjem podataka. Ravnoteža između mjera preciznosti i prisjećanja ispravlja se korištenjem mjere F1, čime se daje holistička mjera učinkovitosti modela.
Nekoliko eksperimentalnih podsekcija ovog poglavlja predstavlja usporedbe predložene metode s alternativnim pristupima, modelima iz srodnih radova i izvedbom na specifičnim skupovima podataka, uključujući razvijeni skup podataka DeSSI. Svaki eksperiment ima za cilj pokazati mogućnosti modela i njegovu prilagodljivost različitim vrstama podataka i zadacima detekcije. Daljnje usporedbe s modelima iz srodnih radova naglašavaju superiornu izvedbu predložene metode na različitim skupovima podataka, uključujući one koji nisu specifično prilagođeni za detekciju osjetljivih podataka. Ti rezultati potvrđuju robustnost modela i njegov potencijal za širu primjenjivost u zadacima semantičkog označavanja stupaca i identifikacije osjetljivih podataka.
Sedmo pogljavlje sažima doprinose disertacije o detekciji osjetljivih podataka u strukturiranim skupovima podataka i semantičkom označavanju stupaca. Istraživanje je uvelo novu metodu koja kombinira klasifikaciju zasnovanu na aktivnom kontekstu s heuristikama zasnovanim na pravilima, čime je značajno poboljšana detekcija osjetljivih podataka u odnosu na ranije pristupe. Razvijen je referentni skup podataka za vrednovanje i usporedbu metoda detekcije, čime je ispunjen ključni jaz u području. Istraživani su alternativni pristupi kako bi se vrednovale različite moguće hipoteze što je dovelo do sveobuhvatnog razumijevanja prednosti i ograničenja različitih arhitektura modela na ovom problemu. Predložena metoda demonstrirala je superiornu izvedbu u odnosu na osnovni model i postojeće modele iz srodnih radova čime je istaknuta visoka učinkovitost pristupa zasnovanog na aktivnom kontekstu. |