Naslov Odnos između pristranosti i varijance u metodama statističkog učenja
Naslov (engleski) The relationship between bias and variance in statistical learning methods
Autor Fabian Mateša
Mentor Hrvoje Planinić (mentor)
Član povjerenstva Hrvoje Planinić (predsjednik povjerenstva)
Član povjerenstva Matija Kazalicki (član povjerenstva)
Član povjerenstva Pavle Pandžić (član povjerenstva)
Član povjerenstva Vjekoslav Kovač (član povjerenstva)
Ustanova koja je dodijelila akademski / stručni stupanj Sveučilište u Zagrebu Prirodoslovno-matematički fakultet (Matematički odsjek) Zagreb
Datum i država obrane 2023-03-03, Hrvatska
Znanstveno / umjetničko područje, polje i grana PRIRODNE ZNANOSTI Matematika
Sažetak Cilj ovog rada je istražiti odnos pristranosti i varijance u okvirima van srednjekvadratne greške, u svrhu boljeg razumijevanja uspješnosti pojedinih metoda. Na početku rada se definiraju osnovni pojmovi vezani uz statističko učenje, nakon čega se navode generalizirane definicije optimalne i glavne predikcije, pristranosti, varijance i šuma. Koristeći te definicije oblikuje se generalni oblik dekompozicije testne greške, te se pokazuje da tako definirana dekompozicija vrijedi za
... Više srednjekvadratnu grešku. Nakon srednjekvadratne obraduje se 0-1 funkcija gubitka u slučajevima klasifikacije. Pokaže se da dekompozicija vrijedi i tada, s tim da se iznosi šuma i varijance množe skalarima. Vrijednosti tih skalara otkrivaju da porast varijance smanjuje testnu grešku u pristranim pri- mjerima. Sličan rastav s modificiranim vrijednostima skalara postoji i u slučajevima kada postoje više od dvije klase, te kada je funkcija gubitka asimetrična. U slučaju kada je 0-1 greška modificirana na način da se i točni pogodci ocjenjuju s pozitivnom vrijednošću, rastav sadrži dodatan član. Takoder se definira pojam Bregmanove divergencije, te se pokaže da dekompozicija vrijedi ako je funkcija gubitka Bregmanova divergencija. U problemima klasifikacije često se koriste stabla odluke, metode koje skup za učenje iterativno dijele na manje podskupove, te na svakom podskupu prilagodavaju jednostavan mo- del. Budući da takve metode često imaju visoku varijancu, u svrhu smanjivanja iste koristi se bagging, metoda bazirane na agregiranju rezultata brojnih stabala odluke. Uspješnost te metode je u prijašnjoj literaturi objašnjena kroz pojam ispravno poredane metode, te se pokaže da je metoda ispravno poredana u x ako je nepristrana u x. Ako je funkcija gubitka metrika, za nju ne mora nužno postojati dekompozicija, kao što je to slučaj za apsolutnu grešku. Ipak, iznos njene testne greške se može ograničiti odozgo i odozdo koristeći šum, pristranost i varijancu. Svojstva dekompozicije u slučajevima klasifikacije su prikazana na simuliranom skupu podataka, gdje se pokaže odnos pristranosti i varijance na primjeru modela k-najbližih susjeda sa 0-1 funkcijom gubitka. Konačno, radi boljeg razumijevanja rada spomenut je proces kojim metode stabala odluke, te bagging generiraju predikcije. Sakrij dio sažetka
Sažetak (engleski) The goal of this thesis is to explore the relationship between bias and variance outside of the constraints of squared-loss error, with the purpose of a better understanding of success of certain statistical learning methods. At the beginning, basic terms related to statistical learning are defined, after which a gene- ralized definition is given for the main and optimal predictions, noise, bias and variance. Using those definitions, a general form of test error decomposition
... Više is formed, and it is shown that a decomposition defined as such holds for squared error. Afterwards the topic shifts to 0-1 error in terms of classification problems. It is shown that the decomposition holds in that case as well, with noise and variance both multiplied by scalars. Those scalar values reveal that higher variance reduces test error in biased examples. A similar decom- position with adjusted scalar values is shown to exist when there are more than two classes, and also with an asymmetrical 0-1 error modification. If the 0-1 error is modified in a way that grades correct guesses with a positive value, the decomposition contains an additional member. Bregman divergences are also defined, and it is shown that a decomposition holds if the loss function is a Bregman divergence. In classification methods, decision trees are often used, which are methods that repeatedly divide the training set into smaller subsets, and then apply a simple method to each subset separately. Since those methods often display high variance, bagging, a method that ag- gregates results of multiple decision trees is used. The success of bagging was explained in the literature using correctly ordered methods, and it is shown that a method is correctly ordered in x if it is unbiased in x. If a loss function is a metric, there does not necessarily need to exist a valid decomposition for it, as is the case with absolute loss. Still, the value of its test error can be limited from above and below using noise, bias and variance. Properties of the decomposition in classification problems are shown on a simulated data set, where the bias-variance trade-off is shown for a k-nearest neighbours model with a 0-1 loss function. Finally, for better understanding of the thesis, an outline is given for the process through which decision tree methods, as well as bagging, generate predictions. Sakrij dio sažetka
Ključne riječi
optimalna predikcija
glavna predikcija
pristranost
varijanca
šum
Ključne riječi (engleski)
optimal prediction
main prediction
partiality
variance
noise
Jezik hrvatski
URN:NBN urn:nbn:hr:217:412789
Studijski program Naziv: Matematička statistika Vrsta studija: sveučilišni Stupanj studija: diplomski Akademski / stručni naziv: magistar/magistra matematike (mag. math.)
Vrsta resursa Tekst
Način izrade datoteke Izvorno digitalna
Prava pristupa Otvoreni pristup
Uvjeti korištenja
Datum i vrijeme pohrane 2023-08-17 14:09:49