Naslov Određivanje tipa osobnosti autora teksta temeljeno na dubokom učenju za klasifikaciju sa složenim oznakama klasa
Naslov (engleski) Determining personality type of text author based on deep learning for classification with compound class labels
Autor Ninoslav Čerkez VIAF: 305687334
Mentor Boris Vrdoljak (mentor)
Mentor Sandro Skansi (komentor)
Član povjerenstva Mihaela Vranić (predsjednik povjerenstva)
Član povjerenstva Jan Šnajder (član povjerenstva)
Ustanova koja je dodijelila akademski / stručni stupanj Sveučilište u Zagrebu Fakultet elektrotehnike i računarstva (Zavod za primijenjeno računarstvo) Zagreb
Datum i država obrane 2022-12-02, Hrvatska
Znanstveno / umjetničko područje, polje i grana TEHNIČKE ZNANOSTI Računarstvo Obradba informacija
Univerzalna decimalna klasifikacija (UDC ) 004 - Računalna znanost i tehnologija. Računalstvo. Obrada podataka
Sažetak Ova doktorska disertacija rezultat je istraživanja u području višeklasne klasifikacije tipova osobnosti autora teksta sa složenim oznakama klasa. Predikcija tipa osobnosti autora teksta ima dobro poznatu uporabu u psihologiji te praktične primjene u poslovnom okruženju. Iz perspektive znanosti o podacima, na problem predikcije osobnosti autora teksta može se gledati kao problem tekstualne klasifikacije te se može rješavati uporabom metoda obrade prirodnog jezika (engl. natural language processing – NLP) te metodama dubokog učenja. U disertaciji je dan pregled rezultata prijašnjih poznatih istraživanja klasifikacije MBTI na način da su prezentirani rezultati primjenom standardnih algoritama strojnog učenja te rezultati istraživanja s primjenom dubokog učenja. Dosadašnja istraživanja višeklasne klasifikacije sa složenim oznakama klasa nisu uzimala u obzir mogućnost uključivanja informacija u komponentama složenih oznaka klasa. Disertacija predlaže novi algoritam za određivanje tipa osobnosti autora teksta temeljen na dubokom učenju s funkcijom gubitka za višeklasnu klasifikaciju prema indikatoru tipa po Myers-Briggsovoj (engl. Myers–Briggs Type Indicator - MBTI) koji poboljšava postojeće rezultate višeklasne klasifikacije MBTI budući da uzima u obzir komponente složenih oznaka klasa kao potporu za bolju klasifikaciju prema instrumentu MBTI. Ovakav pristup je važan jer rješava problem uključivanja komponenti složenih oznaka klasa u višeklasnu klasifikaciju te poboljšava rezultate prijašnjih poznatih istraživanja. Eksperimentalni su rezultati demonstrirani nad dvije arhitekture umjetnih neuronskih mreža: LSTM i CNN a korišteni su i standardni algoritmi strojnog učenja. Rezultati istraživanja s novim algoritmom i funkcijom gubitka uspoređeni su sa standardnim rezultatima pristupa kategoričke unakrsne entropije i s rezultatima prijašnjih poznatih istraživanja. Napravljena je usporedba sa standardnim modelima za višeklasnu klasifikaciju, sličnim istraživanjima za višeklasnu klasifikaciju te istraživanjima s četiri binarna pristupa klasifikaciji MBTI. Algoritam se može koristiti i za ostale probleme višeklasne klasifikacije u situacijama kada postoje binarno isključive komponente složenih oznaka klasa. Na kraju je predstavljen prototip aplikacije s implementiranim predloženim algoritmom za višeklasnu klasifikaciju MBTI, a koji uzima u obzir složene oznake klasa MBTI.
Sažetak (engleski) This dissertation results from research in the multiclass classification of the author's personality types with complex class labels. The author's personality type prediction has a well-known use in psychology and practical applications in the business environment. From the perspective of data science, the problem of predicting the personality of the text author can be seen as a text classification problem and solved using natural language processing (NLP) and deep learning methods. The dissertation presents an overview of previous well-known MBTI classification research in such a way that gives the results using standard machine learning algorithms and the results of research using deep learning. Previous research on multiclass classification with complex class labels has not considered the possibility of including information in the components of complex class labels. The dissertation proposes a new algorithm for determining the author's personality type based on deep learning with a loss function for multiclass classification according to the Myers-Briggs Type Indicator (MBTI). The proposed approach improves the existing results of the multiclass MBTI classification since it considers components of complex class labels as support for better classification according to the MBTI instrument. This approach is necessary because it solves the problem of including components of complex class labels in multiclass classification and improves the results of previously known research. Experiments demonstrate the results on two architectures of artificial neural networks: LSTM and CNN, and standard machine learning algorithms. The research compares results with the new algorithm and loss function with the expected results of the categorical cross-entropy approach and the results of previously known research. Furthermore, it compares the results with standard models for multiclass classification, similar research for multiclass classification, and research with four binary approaches to MBTI classification. The algorithm can also be used for other multiclass classification problems when exclusive binary components of complex class labels exist. In the end, the dissertation presents an application prototype with the implemented proposed algorithm for multiclass MBTI classification, which considers the complex labels of the MBTI classes.
Ključne riječi
strojno učenje
obrada prirodnog jezika
umjetne neuronske mreže
Indikator Tipa osobnosti po Myers-Briggsovoj - MBTI
višeklasna klasifikacija
binarna klasifikacija
složene oznaka klasa
gubitak unakrsne entropije
Ključne riječi (engleski)
machine learning
natural language processing
artificial neural networks
Myers-Briggs Indicator Type - MBTI
multiclass classification
binary classification
compound class labels
cross-entropy loss
Jezik hrvatski
URN:NBN urn:nbn:hr:168:980172
Datum promocije 2023
Studijski program Naziv: Računarstvo Vrsta studija: sveučilišni Stupanj studija: poslijediplomski znanstveni (doktorski) Akademski / stručni naziv: Doktor znanosti (dr. sc.)
Vrsta resursa Tekst
Opseg 138 str. : graf. prikazi ; 31 cm + CD-ROM.
Način izrade datoteke Izvorno digitalna
Prava pristupa Otvoreni pristup
Uvjeti korištenja
Datum i vrijeme pohrane 2023-04-05 08:37:14