Naslov Logistička regresija i primjene
Naslov (engleski) Logistic regression and applications
Autor Marina Švoger
Mentor Snježana Lubura Strunjak (mentor)
Član povjerenstva Snježana Lubura Strunjak (predsjednik povjerenstva)
Član povjerenstva Goran Radunović (član povjerenstva)
Član povjerenstva Eduard Marušić-Paloka (član povjerenstva)
Član povjerenstva Matej Mihelčić (član povjerenstva)
Ustanova koja je dodijelila akademski / stručni stupanj Sveučilište u Zagrebu Prirodoslovno-matematički fakultet (Matematički odsjek) Zagreb
Datum i država obrane 2022-03-03, Hrvatska
Znanstveno / umjetničko područje, polje i grana PRIRODNE ZNANOSTI Matematika
Sažetak U prvom poglavlju ovog rada objašnjeni su osnovni pojmovi vezani za logističku regresiju kao i razlike između linearne te logističke regresije. Detaljno je definiran pojam logit funkcije kao i metoda maksimalne vjerodostojnosti kojom se procjenjuju parametri modela. Navedeno je nekoliko testova za testiranje značajnosti koeficijenata te kako se može dobiti procjena pouzdanih intervala za vrijednosti koeficijenata. Objašnjen je pojam omjera izgleda koji je temeljan za razumijevanje interpretacije parametara modela. Zatim je rečeno što ako nisu svi podaci dostupni. Po koracima je naveden postupak koji se najčešće slijedi kako bismo na kraju dobili odgovarajući model te je detaljno opisana stepwise metoda odabira varijabli koje će se nalaziti u modelu. Navedeni su i načini kako možemo usporediti dva modela te kako možemo procijeniti adekvatnost modela. U drugom poglavlju ovog rada prikazani su rezultati dobiveni provođenjem opisanih koraka za odabir varijabli koje će biti u modelu na dva primjera iz područja medicine. Pritom je korišten programski jezik R. U oba primjera kao konačan rezultat dobiveni su modeli koji su prema iznosu površine ispod ROC krivulje ocijenjeni odličnima. U primjeru o srčanom zatajenju dobiveno je da vjerojatnost smrti ovisi o vremenu praćenja pacijenta, o njegovoj dobi, te o vrijednostima kreatinina u krvi i ejekcijske frakcije. Vjerojatnost preživljavanja osoba koje imaju hepatocelularni karcinom može se modelirati u ovisnosti o dobi pacijenta, o tome ima li simptome karcinoma, o statusu njegovog općeg tjelesnog stanja, o tome je li bio i/ili je trenutno zaražen hepatitisom C te o vrijednostima hemoglobina i enzima alkalne fosfataze kao i o vrijednostima njihove međusobne interakcije.
Sažetak (engleski) In the first chapter of this master thesis we introduced the basic concepts of logistic regression as well as the differences between linear and logistic regression. Logit function and maximum likelihood method for estimating parameters of the model were described in detail. A few statistical tests for testing for the significance of the coefficients and confidence interval estimations of the coefficients were also provided. The concept of odds ratio which is fundamental in understanding how to interpret parameters of the model is also introduced. Additionally, we discussed what to do when there are missing values in the data. We introduced the most common procedure for variable selection step by step and described stepwise procedure in great detail. Lastly, some ways of comparing two models and goodness-of-fit statistics were suggested. In the second chapter we demonstrated variable selection procedure on two medical examples using programming language R. In both examples the final models are considered to be excellent in terms of obtained value of the area under the ROC curve. In the first example regarding the heart failure data we can conclude that probability that patient died depends on their follow-up period, age, serum creatinine value and ejection fraction percentage whereas in the second example about hepatocellular carcinoma we can conclude that probability that patient survived is related to their age, performance status, hemoglobin and alkaline phosphatase values as well as its interaction value, whether they have symptoms of the disease and whether they are and/or were infected with hepatitis C.
Ključne riječi
linearna regresija
logistička regresija
logit funkcija
metoda maksimalne vjerodostojnosti
stepwise metoda
programski jezik R
srčano zatajenje
hepatocelularni karcinom
Ključne riječi (engleski)
linear regression
logistic regression
logit function
maximum likelihood method
stepwise procedure
programming language R
heart failure
hepatocellular carcinoma
Jezik hrvatski
URN:NBN urn:nbn:hr:217:611911
Studijski program Naziv: Matematička statistika Vrsta studija: sveučilišni Stupanj studija: diplomski Akademski / stručni naziv: magistar/magistra matematike (mag. math.)
Vrsta resursa Tekst
Način izrade datoteke Izvorno digitalna
Prava pristupa Otvoreni pristup Datum isteka embarga: 2024-03-31
Uvjeti korištenja
Datum i vrijeme pohrane 2022-03-31 12:27:24