Abstract | Multivarijatna analiza i regresija predstavljaju jedan od glavnih alata u analizi mjernih podataka s primjenom u kontroli kvalitete, kompresiji podataka, predviđanju varijabli u sustavima visoke kompleksnosti, a od nedavno i optimizaciji modela pomoću kojih je moguće opisati i predvidjeti ponašanje takvih sustava. Iako je matematički aparat za multivarijatnu analizu bio razvijen već početkom 20. st., puni procvat ovih metoda bilježi se tek razvojem i dostupnošću računala najnovije generacije.
Cilj diplomskog rada je istražiti primjenjivost i učinkovitost različitih metoda multivarijatne analize za dekonvoluciju spektara u bliskom infracrvenom podučju elektromagnetskog zračenja (NIR), izmjerenih za trokomponentnu smjesu spojeva glukoza, fruktoza i saharoza. Naglasak je na regresijskim tehnikama koje omogućuju, provjeru točnosti te pouzdanosti, kako za prilagodbu razvijenih modela, tako i za predikciju varijable odgovora. Najvažnije svojstvo tih tehnika je da primjena regresije pruža mogućnost samokonzistentne kalibracije, tj. određivanje kalibracijskih parametara optimizacijom kalibracijskog modela. Pritom, zbog podatkovne kompleksnosti NIR spektara, za primjenu svih istraženih metoda nužno je provesti i njihovu predobradu. Većina primijenjenih metoda, tj. analiza glavnih komponenti (PCA), multivarijatna linearna regresija (MLR), ridge regresija, regresija glavnih komponenti (PCR), regresija parcijalnih najmanjih kvadrata (PLS) te umjetne neuronske mreže, u prilagodbi modela sadrži korak selekcije ili redukcije podataka sadržanih u ulaznoj matrici spektara.
Istražene su i uspoređene značajke različitih metoda predobrade i prilagodbe modela te njihova učinkovitost za kvantitativnu analizu NIR spektara smjese navedenih spojeva. Kao najučinkovitija pokazala se ridge regresija, za koju ponovljena unakrsna validacija modela pokazuje out-of-sample pogrešku koja iznosi tek 0.63±0.08%. Rezultati i zaključci o istraženim metodama obrade NIR spektara primijenjivi su u praksi za brzu i efikasnu analizu smjesa kemijski sličnih spojeva u industrijskom i znanstveno-istraživačkom okružju. |
Abstract (english) | Multivariate analysis and regression present one of the main tools in the analysis of measured data, with applications in quality control, data compression, forecasting of variables in highly complex systems, and more recently, model optimization which enable description and behavior prediction of such systems. Although the mathematical apparatus for multivariate analysis was developed in the early 20th century, full flourishing of these methods is recorded in parallel with the development and availability of the latest generation computers.
The aim of the present thesis is to investigate the applicability and effectiveness of different multivariate analysis methods for deconvolution of spectra in the near-infrared region of electromagnetic radiation (NIR), measured for a three-component mixture of glucose, fructose and sucrose. The emphasis is on regression techniques that allow the precision and accuracy validation both for the fitted model as well as the prediction of the response variable. The most important feature of these techniques is that regression provides the possibility of self consistent calibration, that is, determination of the calibration parameters through calibration model optimization. Due to the complexity of NIR spectra, for the application of all investigated methods, it is necessary to carry out the pre-processing of the measured data. Most of the applied regression methods, thus principal component analysis (PCA), ridge regression, principal component regression (PCR), partial least squares regression (PLS), and artificial neural networks, include variable selection or data reduction step in model fitting.
The characteristics of different methods for NIR spectra pre-processing and model fitting, and their efficiency for the quantitative analysis of the aforementioned compounds in their mixture, were investigated and compared. Ridge regression was shown to be the most effective, for which repeated cross validation showed out-of-sample error of only 0.63±0.08%. The results and conclusions of the investigated NIR spectra analysis methods are applicable in practice for a rapid and efficient determination of chemically similar compounds in their mixtures, both in industrial and scientific research environments. |