Sažetak | Verifikacija potpisa je zadatak forenzičke analize dokumenata, kojeg rješavaju posebno trenirani ispitivači dokumenata. Glavno pitanje je provjera podudaranja potpisa s već poznatim potpisima dane osobe. Ovaj rad proučava mogućnost automatizacije tog procesa, budući da trening ispitivača traje godinama. Prikupljamo Offline podatke o potpisu, dakle samo "sirove" slike potpisa, te na temelju piksela trebamo odrediti njihovu ispravnost. Prije svega opisujemo proces obrade slika. Pretvaramo ih u greyscale format, invertiramo boje, uklanjamo šumove te, naposljetku, intenzitete piksela pretvaramo u binarne vrijednosti. Takve obrađene slike su spremne za izvlačenje značajki te njihovu predaju modelima na treniranje. Sam rad se dijeli na dva poglavlja, od kojih svako daje svoj pristup prema izvlačenju značajki. Prvo uzimamo u obzir pristup gdje izvlačimo malen broj značajki, specifičnih za potpis, te treniramo manje kompleksne modele na njima. Te značajke su bazni kut potpisa, omjer slike, normalizirana površina potpisa, centar intenziteta, kut nagiba između centara intenziteta dviju polovica slika te broj rubnih točaka i sjecišta. Koristimo 3 modela: euklidski, logističku regresiju i stabla odlučivanja. Prvo navodimo matematičku pozadinu svakog, radi boljeg razumijevanja procesa učenja na podacima iz skupa za treniranje. Potom provodimo sam trening i uspoređujemo performanse na testnom skupu. Najbolje performanse ima euklidski model, kojemu je lako naći balans između false positive i false negative metrika ugađanjem praga prihvaćanja. Logistička regresija i stabla odlučivanja imaju slabije performanse. Međutim, malim povećanjem veličine skupa za treniranje dobivamo poboljšanja u preciznosti, stoga ih je vrijedno promatrati na većim skupovima podataka. Prethodni pristup je ograničen činjenicom što svakoj osobi dajemo novu instancu modela. Uvođenjem kompleksnijih modela, kao što su neuronske mreže i metoda potpornih vektora, možemo provoditi treniranje na potpisima svih ljudi u eksperimentu. Javlja se potreba za većim skupom za treniranje. Međutim, to nije velik problem, kako skup sada nije ograničen na samo jednu osobu. Kao i u prethodnom poglavlju, opisujemo matematičku pozadinu oba modela. Nailazimo na problem prenaučenosti, kojeg rješavamo primjenom regularizacije i augmentacije skupa za treniranje. Provodimo trening te, nakon optimizacije topologije neuronske mreže i hiperparametara metode potpornih vektora, dolazimo do konačnih performansi. Očekivano, neuronske mreže imaju veću preciznost, ali ne i od euklidskog modela. Euklidski model ima lošiju false positive metriku. Ta činjenica, kombinirana s velikim povećanjem preciznosti primjenom jednostavnih augmentacija skupa rotacijama, opravdava izbor neuronskih mreža. Daljnja istraživanja bi se mogla baviti isprobavanjem dodatnih metoda augmentacije te korištenjem kompleksnijih vrsta neuronskih mreža, koje bi imale dobre performanse na većim augmentiranim skupovima. |
Sažetak (engleski) | Signature Verification is a forensic analysis task, usually solved by trained experts. The main goal is to check whether a new signature belongs to a certain person, if we already have a set of his or her referent signatures. In this paper we will consider possibility of automating this process, since the training of human experts can take a long time. We are collecting Offline data. These are just plain images of signatures and from pixels we have to determine their validity. First of all we describe the image processing step. RGB Images are converted to the greyscale format, followed by color inversion, removal of noise and converting pixel intensities to binary values. These processed images are now ready for feature extraction, followed by model training. This paper is divided in two chapters, depending on the feature extraction approach. In the first approach we extract a low number of features which are specific for signatures, and we train low complexity models on top of them. The features are baseline slant angle, aspect ratio, normalized signature area, center of gravity, angle between centers of gravity of each half of the picture, number of edge and cross points. We are using 3 models: Euclidian, Logistic Regression and Decision Trees. First we introduce their mathematical background in order to fully understand their training process. After that we conduct the training and compare their performances. Euclidian model has the best performance. It is also easy to find a balance between false positive and false negative metrics by a simple fine tune of acceptance threshold. Logistic Regression and Decision Trees have lower performances. However, we see improvements by a slight increase of the training set. This approach has a big restriction, since each person gets its own instance of the model. However, we can conduct training on the whole set of signatures, no matter to whom they belong, by introducing models of higher complexity, like Neural Networks and Support Vector Machine (SVM). We need a bigger training set, but this is not a problem, since we combine all people into a one big set of signatures. Like in the previous chapter, first we introduce the mathematical background of both models. We encounter the overfitting problem and solve it by using regularization and data set augmentation techniques. We conduct the training while optimizing network’s topology and hyper-parameters of SVM. As expected, Neural Networks perform better than SVM. However, Euclidian model has better accuracy, but worse false positive metric. We also see network’s performance dramatically improving, after introduction of data set augmentation by performing simple rotations. There is a big room for further research by using additional data set augmentation techniques and more complex variants of Neural Networks, which would perform better on bigger augmented sets. |