Naslov Verifikacija potpisa
Autor Ante Buterin
Mentor Saša Singer (mentor)
Član povjerenstva Saša Singer (predsjednik povjerenstva)
Član povjerenstva Tina Bosner (član povjerenstva)
Član povjerenstva Vanja Wagner (član povjerenstva)
Član povjerenstva Zlatko Drmač (član povjerenstva)
Ustanova koja je dodijelila akademski / stručni stupanj Sveučilište u Zagrebu Prirodoslovno-matematički fakultet (Matematički odsjek) Zagreb
Datum i država obrane 2019-09-23, Hrvatska
Znanstveno / umjetničko područje, polje i grana PRIRODNE ZNANOSTI Matematika
Sažetak Verifikacija potpisa je zadatak forenzičke analize dokumenata, kojeg rješavaju posebno trenirani ispitivači dokumenata. Glavno pitanje je provjera podudaranja potpisa s već poznatim potpisima dane osobe. Ovaj rad proučava mogućnost automatizacije tog procesa, budući da trening ispitivača traje godinama. Prikupljamo Offline podatke o potpisu, dakle samo "sirove" slike potpisa, te na temelju piksela trebamo odrediti njihovu ispravnost. Prije svega opisujemo proces obrade slika. Pretvaramo ih u
... Više greyscale format, invertiramo boje, uklanjamo šumove te, naposljetku, intenzitete piksela pretvaramo u binarne vrijednosti. Takve obrađene slike su spremne za izvlačenje značajki te njihovu predaju modelima na treniranje. Sam rad se dijeli na dva poglavlja, od kojih svako daje svoj pristup prema izvlačenju značajki. Prvo uzimamo u obzir pristup gdje izvlačimo malen broj značajki, specifičnih za potpis, te treniramo manje kompleksne modele na njima. Te značajke su bazni kut potpisa, omjer slike, normalizirana površina potpisa, centar intenziteta, kut nagiba između centara intenziteta dviju polovica slika te broj rubnih točaka i sjecišta. Koristimo 3 modela: euklidski, logističku regresiju i stabla odlučivanja. Prvo navodimo matematičku pozadinu svakog, radi boljeg razumijevanja procesa učenja na podacima iz skupa za treniranje. Potom provodimo sam trening i uspoređujemo performanse na testnom skupu. Najbolje performanse ima euklidski model, kojemu je lako naći balans između false positive i false negative metrika ugađanjem praga prihvaćanja. Logistička regresija i stabla odlučivanja imaju slabije performanse. Međutim, malim povećanjem veličine skupa za treniranje dobivamo poboljšanja u preciznosti, stoga ih je vrijedno promatrati na većim skupovima podataka. Prethodni pristup je ograničen činjenicom što svakoj osobi dajemo novu instancu modela. Uvođenjem kompleksnijih modela, kao što su neuronske mreže i metoda potpornih vektora, možemo provoditi treniranje na potpisima svih ljudi u eksperimentu. Javlja se potreba za većim skupom za treniranje. Međutim, to nije velik problem, kako skup sada nije ograničen na samo jednu osobu. Kao i u prethodnom poglavlju, opisujemo matematičku pozadinu oba modela. Nailazimo na problem prenaučenosti, kojeg rješavamo primjenom regularizacije i augmentacije skupa za treniranje. Provodimo trening te, nakon optimizacije topologije neuronske mreže i hiperparametara metode potpornih vektora, dolazimo do konačnih performansi. Očekivano, neuronske mreže imaju veću preciznost, ali ne i od euklidskog modela. Euklidski model ima lošiju false positive metriku. Ta činjenica, kombinirana s velikim povećanjem preciznosti primjenom jednostavnih augmentacija skupa rotacijama, opravdava izbor neuronskih mreža. Daljnja istraživanja bi se mogla baviti isprobavanjem dodatnih metoda augmentacije te korištenjem kompleksnijih vrsta neuronskih mreža, koje bi imale dobre performanse na većim augmentiranim skupovima. Sakrij dio sažetka
Sažetak (engleski) Signature Verification is a forensic analysis task, usually solved by trained experts. The main goal is to check whether a new signature belongs to a certain person, if we already have a set of his or her referent signatures. In this paper we will consider possibility of automating this process, since the training of human experts can take a long time. We are collecting Offline data. These are just plain images of signatures and from pixels we have to determine their validity. First of all
... Više we describe the image processing step. RGB Images are converted to the greyscale format, followed by color inversion, removal of noise and converting pixel intensities to binary values. These processed images are now ready for feature extraction, followed by model training. This paper is divided in two chapters, depending on the feature extraction approach. In the first approach we extract a low number of features which are specific for signatures, and we train low complexity models on top of them. The features are baseline slant angle, aspect ratio, normalized signature area, center of gravity, angle between centers of gravity of each half of the picture, number of edge and cross points. We are using 3 models: Euclidian, Logistic Regression and Decision Trees. First we introduce their mathematical background in order to fully understand their training process. After that we conduct the training and compare their performances. Euclidian model has the best performance. It is also easy to find a balance between false positive and false negative metrics by a simple fine tune of acceptance threshold. Logistic Regression and Decision Trees have lower performances. However, we see improvements by a slight increase of the training set. This approach has a big restriction, since each person gets its own instance of the model. However, we can conduct training on the whole set of signatures, no matter to whom they belong, by introducing models of higher complexity, like Neural Networks and Support Vector Machine (SVM). We need a bigger training set, but this is not a problem, since we combine all people into a one big set of signatures. Like in the previous chapter, first we introduce the mathematical background of both models. We encounter the overfitting problem and solve it by using regularization and data set augmentation techniques. We conduct the training while optimizing network’s topology and hyper-parameters of SVM. As expected, Neural Networks perform better than SVM. However, Euclidian model has better accuracy, but worse false positive metric. We also see network’s performance dramatically improving, after introduction of data set augmentation by performing simple rotations. There is a big room for further research by using additional data set augmentation techniques and more complex variants of Neural Networks, which would perform better on bigger augmented sets. Sakrij dio sažetka
Ključne riječi
verifikacija potpisa
forenzička analiza dokumenta
treniranje modela
euklidski model
logistička regresija
stabla odlučivanja
neuronska mreža
metoda potpornih vektora
Ključne riječi (engleski)
signature verification
forensic analysis
model training
Euclidian model
Logistic Regression
Decision Trees
Neural Networks
Support Vector Machine
SVM
Jezik hrvatski
URN:NBN urn:nbn:hr:217:963471
Studijski program Naziv: Računarstvo i matematika Vrsta studija: sveučilišni Stupanj studija: diplomski Akademski / stručni naziv: magistar/magistra računarstva i matematike (mag. inf. et math.)
Vrsta resursa Tekst
Način izrade datoteke Izvorno digitalna
Prava pristupa Otvoreni pristup
Uvjeti korištenja
Datum i vrijeme pohrane 2020-01-13 13:45:02