Naslov Učinkovitost treniranja modela predviđanja polu-nadziranog učenja
Naslov (engleski) Training efficiency of semi-supervised learning models
Autor Mateo Krizmanić
Mentor Goran Mauša (mentor)
Član povjerenstva Ivo Ipšić (predsjednik povjerenstva)
Član povjerenstva Ivan Štajduhar (član povjerenstva)
Član povjerenstva Goran Mauša (član povjerenstva)
Ustanova koja je dodijelila akademski / stručni stupanj Sveučilište u Rijeci Tehnički fakultet Rijeka
Datum i država obrane 2023-09-25, Hrvatska
Znanstveno / umjetničko područje, polje i grana TEHNIČKE ZNANOSTI Računarstvo Programsko inženjerstvo
Sažetak Cilj ovog diplomskog rada bio je proučiti metode polu-nadziranog učenja te opisati njih i njihove prednosti i mane. Izraditi model predviđanja polu-nadziranog učenja i usporediti ga s modelom nadziranog učenja kada je dostupna mala količina označenih podataka. Vrednovati odabrane modele te izmjeriti utrošak energije, memorije i vremena potrebnog za treniranje modela za scenarije nadziranog i polu-nadziranog učenja. Za mjerenje utroška CPU-a, RAM-a i vremena treniranja modela korištena je pyRAPL knjižnica koja pruža mogućnost mjerenja samo određenog dijela programskog koda. Prilikom razvoja modela izvedeno je nekoliko mjerenja za svaki model, gdje je prilikom svakog mjerenja povećavan postotak označenih podataka kako bi se istražio omjer performansi i učinkovitosti u ovisnosti o količini označenih podataka u fazi treniranja. Najbolji rezultati obično su postignuti pri treniranju modela s 10% označenih podataka. Osim polu-nadziranih metoda u diplomskom radu opisane su i metrike vrednovanja korištene za vrednovanje modela. Također, opisan je i razvoj modela i unakrsne provjere za polu-nadzirano učenje. Osim klasičnog testiranja gdje se testiranje odvija na skupu za testiranje u unakrsnoj provjeri, u svrhu istraživanja u ovom diplomskom radu odrađeno je i testiranje na podacima namijenjenima za pseudo-označavanje. Rezultati istraživanja prikazani su u posljednjem poglavlju. Nakon analize svih skupova podataka, osim "Tumor" skupa, nadzirani model slučajne šume ima bolje rezultate u usporedbi s drugim najboljim modelima na svim skupovima podataka s razlikom u rasponu od 0,3-5% te se pokazao kao najbolji omjer performansa i učinkovitosti. Model s najvećom potrošnjom i trajanjem treniranja modela na svim skupovima podataka pokazao se polu-nadzirani model algoritma slučajne šume koji je u prosjeku ostvario 18 do 66 puta veću potrošnju CPU-a i 13,4 do 68 puta duže treniranje modela u odnosu na nadzirani model slučajne šume.
Sažetak (engleski) The objective of this thesis was to learn about semi-supervised learning methods and describe them and their advantages and disadvantages. Build a semi-supervised learning predictive model and compare it to a supervised learning model when a small amount of labeled data is available. Evaluate the selected models and measure the consumption of energy, memory and time needed to train the model for supervised and semi-supervised learning scenarios. To measure CPU consumption, RAM and model training time, the pyRAPL library is used, which provides the ability to measure only a certain part of the program code. During the development of the model, several measurements were performed for each model, where during each measurement the percentage of labeled data was increased in order to investigate the ratio of performance and efficiency depending on the amount of labeled data in the training phase. The best results are achieved when training the model with 10% labeled data. In addition to semi-supervised methods, evaluation metrics used for model evaluation are also described in the thesis. Model development and cross-validation for semi-supervised learning are also described. In addition to classic testing, where testing takes place on a test set in cross-validation, for the purpose of research in this thesis, testing was also done on data intended for pseudo-labeling. The results of the research are presented in the last chapter. After analyzing all datasets, except for the "Tumor" set, the supervised Random Forest model has better results compared to the other second-best models in all datasets with a difference in the range of 0.3-5% and proved to be the best ratio of performance and efficiency. The model with the highest consumption and duration of model training on all datasets turned out to be a semi-supervised model based on a Random Forest algorithm, which achieved an average of 18 to 66 times higher CPU consumption and 13.4 to 68 times longer model training compared to the supervised model Random Forest.
Ključne riječi
polu-nadzirani model
pyRAPL
unakrsna provjera
učinkovitost modela
Ključne riječi (engleski)
semi-supervised model
pyRAPL
cross-validation
model efficiency
Jezik hrvatski
URN:NBN urn:nbn:hr:190:512043
Studijski program Naziv: Računarstvo Vrsta studija: sveučilišni Stupanj studija: diplomski Akademski / stručni naziv: magistar/magistra inženjer/inženjerka računarstva (mag. ing. comp.)
Vrsta resursa Tekst
Način izrade datoteke Izvorno digitalna
Prava pristupa Otvoreni pristup
Uvjeti korištenja
Datum i vrijeme pohrane 2023-09-14 17:41:00