Sažetak | “Opinion analysis, also called opinion recognition, is a field of research that analyses people's opinions, attitudes, evaluations, and feelings toward entities and their attributes expressed in written text." (B. Liu, 2020). An individual's decision-making process is influenced by his opinion, and his decisions in turn influence the opinions and attitudes of other people who participate in decision-making. The action of an individual is usually the result of processing information (objective or subjective) gathered through interactions with the environment. This information leads to the formation of opinions and attitudes. Every piece of information we adopt leads us to build attitudes about the phenomena that surround us. Today, the primary sources that can lead to the formation of attitudes are social networks and other internet communication, TV, books, and newspapers. These interactions lead to the sharing of opinions and attitudes with others. Since people like to share their opinions and views, with the emergence of social networks, there has been an exponential growth of user content on Twitter, Facebook and Instagram, along with websites, blogs and forums, which enable the exchange of opinions. This area has received a lot of attention recently, and it ranges from product reviews to news analysis. The prevailing attitude or opinion about a news item is an important feature in the analysis of different biases (Mejova et al., 2014), in the dissemination of textual information (el Ali et al., 2018) and in the detection of controversy in online news (Garimella et al., 2018). Special attention is paid to news media reporting on an event. The goal of the doctoral dissertation is to create a model of opinion analysis in languages with limited supervised data sources. Different labelled datasets of languages with rich data sources (English and Russian) were used to create the model. Since the official Slavic languages of the European Union (Bulgarian, Czech, Croatian, Polish, Slovenian, Slovak) in principle have limited supervised data sources, that language family was primary for research. Classification of opinions was carried out at the sentence level and at the document level. Different possibilities of using parallel datasets, paraphrases and labelled datasets of languages with rich computational data sources are explored. The experiments were conducted using datasets for languages from the same language family, since they are typologically related language pairs. Success was compared with a typologically unrelated language - English. The performance of all approaches was measured on the corresponding v datasets. The methods presented in this doctoral dissertation advance the achievements in the field of opinion analysis in the framework of cross-linguistic approaches. The dissertation is divided into three parts. In the first part of the dissertation, we sought to answer the following research question: how to choose a good language model for crosslinguistic opinion analysis? Hypothesis H1 was also put forward: Linguistic diagnostic classifiers such as those for detecting negations and paraphrases achieve high accuracy in testing the existing models of opinion transmission. The selection of a good candidate for the model was performed using diagnostic classifiers and relied on the fact that models that can successfully detect negation and paraphrases are better at cross-linguistic opinion classification. To obtain an answer to the first research question, available multilingual linguistic models were chosen, for which two sources were needed: a set of sentences with negation and those without it, and a set of paraphrases for all languages in the research. For this purpose, a bilingual corpus of Tapoca paraphrases was used. This corpus is a collection of paraphrases in 75 languages. In the corpus, English is the source language, and all paraphrases in other languages are linked by a unique group identifier. Indicators of negation were collected from the literature on negation. All sentences corresponding to explicit indicators of negation in the corpus in English have already been extracted in the first step. A corpus of sentences with and without negation was created using the previously collected corpus. Using English sentences with and without negation as sources, corresponding pairs were generated for the other languages in the study. Paraphrases were used directly from the Tapoca dataset. Datasets were used to apply different models. The models were trained for cross-linguistic opinion analysis. The measurement of the success of opinion analysis and the cosine similarity of sentences with negation or paraphrases were compared using correlation values. In the first part of the dissertation, we gave an overall overview of the procedure of diagnostic classification of trained language models for cross-linguistic opinion analysis. In the first phase, we tested different trained language models on simple tasks in order to check their correlation with the tasks of opinion analysis and multi-task learning. We concluded that negation has a moderate correlation with opinion comprehension in cross-linguistic opinion analysis. This led us to the conclusion that simple negation can be used to select a welltrained language model for the further task of opinion analysis. The XLM-Roberta-base model achieved better performance compared to other models. vi In the second part of the dissertation, we sought to answer the following research question: what is the effect of linguistic similarity and available computer data sources in multilingual linguistic models? Hypotheses were also put forward: • H2: Cross-linguistic transfer is more successful in typologically similar than in typologically different languages. • H3: A large set of labelled data from a more distant language family can help overcome typological differences, unlike a small set from a closer language family. Languages belonging to the same language family share a subset of vocabulary and common features. Therefore, the initial assumption was that the computer data sources of those languages are more suitable for cross-linguistic transfer of knowledge. In order to obtain an answer to the second research question, i.e. to study the influence of typology on the performance of cross-lingual opinion analysis, models were trained on datasets of English and Slavic languages. Data from languages with rich data sources (English and Russian) and from the same language family were used. Results were calculated and compared with the previous results. The best hub language for the transmission of opinions has been identified. The interior of the trained model was also examined to understand the strengths and weaknesses of the model. The model that was identified in the first phase of this research as the best for feature coding was used. In this part of the dissertation, we proposed a deep learning framework for using the existing markup of languages with rich computational resources on languages with limited computational resources. We have conducted numerous experiments on languages that belong to the same language family. We studied how well opinion classification ability can be transferred by adding data from the same language family compared to a distant language family. We have proven that our framework improves upon simple fine-tuning, considering multiple large training datasets. We concluded that the best method is to jointly train the opinion analysis system to alleviate the problem of limited resources in the target languages. We found that the transfer of opinion knowledge improves in the case of the same language families, i.e. the closer the language, the easier the transfer of opinion if we have a large dataset. We also found that having a large dataset from a distant family when training vii the model can give better performance than using smaller datasets from similar languages. Quantitative experiments show that adding a large amount of data from a similar language and a language from a distant language family is beneficial for cross-language transfer of opinions. The third part of the dissertation sought to answer the following research question: can data augmentation be effectively used for sentiment analysis in resource-poor languages? Hypothesis H4 was also put forward: data augmentation achieves accuracy comparable to the accuracy of supervised approaches in typologically similar languages. Augmentation techniques aim to increase the size of the training corpus in various ways. However, their application in language processing with limited data resources remains unexplored. In this section, we presented our results based on three data augmentation techniques. We experimented with WordNet and two transformer-based techniques for all languages in the study. We have proposed an additional technique that does not require the use of additional language processing tools. Furthermore, we tested different amounts of augmented data and presented opinion classification results for four Slavic languages with limited resources. Although data augmentation allows us to artificially expand the instance space for deep learning methods, using a transformer-based text encoder does not lead to a large performance improvement for the most part. At the end, an error analysis was performed and various phenomena encountered during the evaluation process were pointed out. |
Sažetak (engleski) | Analiza mnijenja, koja se naziva i prepoznavanjem mnijenja, područje je istraživanja koje analizira mnijenja, stavove, ocjene i osjećaje ljudi prema entitetima i njihovim atributima izraženima u pisanom tekstu.” (B. Liu, 2020). Na proces odlučivanja pojedinca utječu njegovo mnijenje, a njegove odluke zauzvrat utječu na mnijenje i stavove drugih osoba koje sudjeluju u donošenju odluka. Djelovanje je pojedinca obično posljedica obrade informacija (objektivnih ili subjektivnih) prikupljenih kroz interakcije s okolinom. Te informacije dovode do formiranja mnijenja i stavova. Svaka informacija koju usvojimo vodi nas u izgradnju stavova o pojavama koje nas okružuju. Danas su primarni izvori, koji mogu dovesti do formiranja stavova društvene mreže i ostale internetske komunikacije, TV, knjige, novine. Te interakcije dovode do dijeljenja mnijenja i stavova s drugima. Budući da ljudi vole dijeliti svoja mnijenja i stavove, s nastankom društvenih mreža došlo je do eksponencijalnoga rasta korisničkoga sadržaja na Twitteru, Facebooku i Instagramu, uz internetske stranice, blogove i forume, koji omogućuju razmjenu mnijenja. Ovo je područje u posljednje vrijeme dobilo veliku pozornost, a proteže se od ocjena o proizvodima do analize vijesti. Prevladavajući stav ili mnijenje o nekoj vijesti važna je značajka pri analizi različitih pristranosti (Mejova et al., 2014), u širenju tekstnih informacija (el Ali et al., 2018) i otkrivanju prijepora u internetskim vijestima (Garimella et al., 2018). Posebna se pozornost posvećuje izvješćivanju novinskih medija o nekome događaju. Jezici s bogatim računalnim podatkovnim izvorima, kao što je engleski, imaju veliku količinu podataka u obliku “zlatnoga standarda” za različite zadatke analize mnijenja. Međutim, tako nije s drugim jezicima koji ili nemaju nikakvih označenih podatkovnih skupova ili imaju vrlo male korpuse s označenim pozitivnim ili negativnim mnijenjem. Stvaranje takvih podatkovnih izvora skupo je i dugotrajno, a za dosljedno i sustavno označavanje mnijenja prethodno je potrebna izrada jasnih smjernica za označavanje kao i izobrazba označavatelja. Razvoj jezičnih modela za velike jezike, kao što je npr. mBERT temeljen na Transformer arhitekturi, pokazao se uspješnim načinom iskorištavanja postojećih računalnih podatkovnih izvora za zadatke kao što je analiza mnijenja, te se tako otvara mogućnost za istraživanje prekojezičnih tehnika za analizu mnijenja i u jezicima za koje postoji malo računalnih izvora podataka. ix Cilj doktorske disertacije bio je stvaranje modela analize mnijenja u jezicima s ograničenim računalnim podatkovnim izvorima. Za izradu modela koristili su se različiti označeni skupovi podataka jezika s bogatim računalnim podatkovnim izvorima (engleskog i ruskog). Budući da službeni slavenski jezici Europske unije (bugarski, češki, hrvatski, poljski, slovenski, slovački) u načelu posjeduju ograničene računalne podatkovne izvore, ta je jezična porodica bila primarna za istraživanje. Klasifikacija mnijenja se provela na rečeničnoj razini i na razini dokumenta. Istražene su različite mogućnosti korištenja paralelnih skupova podataka, parafraza i označenih skupova podataka jezika s bogatim računalnim podatkovnim izvorima. Eksperimenti su se provodili koristeći skupove podataka za jezike iz iste jezične porodice, budući da se radi o tipološki srodnim jezičnim parovima. Uspješnost se usporedila s tipološki nepovezanim jezikom - engleskim. Provedeno je mjerenje uspješnosti svih pristupa na pripadajućim skupovima podataka. Metode predstavljene u ovoj doktorskoj disertaciji unaprjeđuju dostignuća u području analize mnijenja u okviru prekojezičnih pristupa. Disertacija je podijeljena u tri dijela. U prvom dijelu disertacije tražio se odgovor na istraživačko pitanje: kako odabrati dobar jezični model za prekojezičnu analizu mnijenja? Postavljena je i hipoteza H1: Lingvistički dijagnostički klasifikatori kao što su oni za otkrivanje negacija i parafraze postižu visoku točnost u ispitivanju postojećih modela prijenosa mnijenja. Odabir dobrog kandidata za model izvršio se pomoću dijagnostičkih klasifikatora i oslonio na činjenicu da su modeli koji mogu uspješno detektirati negaciju i parafraze bolji u prekojezičnoj klasifikaciji mnijenja. Za dobivanje odgovora na prvo istraživačko pitanje odabrali su se dostupni višejezični lingvistički modeli, za što su bila potrebna dva izvora: skup rečenica s negacijom i onih bez nje te skup parafraza za sve jezike u istraživanju. U tu svrhu korišten je dvojezični korpus parafraza Tapoca. Ovaj korpus je zbirka parafraza na 75 jezika. U korpusu je engleski izvorišni jezik, a sve parafraze na drugim jezicima povezane su jedinstvenim grupnim identifikatorom. Pokazatelji negacije prikupili su se iz literature o negaciji. Sve rečenice koje odgovaraju eksplicitnim pokazateljima negacije u korpusu na engleskom izdvojene su već u prvom koraku. Korpus rečenica s negacijom i onih bez nje kreiran je korištenjem ranije prikupljenog korpusa. Uporabom engleskih rečenica s negacijom i onih bez nje kao izvora, generirani su odgovarajući parovi za druge jezike u istraživanju. Parafraze su korištene izravno iz skupa podataka Tapoca. Skupovi podataka koristili su se za primjenu različitih modela. Modeli su se naučili za prekojezičnu analizu mnijenja. Mjerenje x uspješnosti analize mnijenja i kosinusna sličnost rečenica s negacijom odnosno parafrazama usporedili su se s pomoću korelacijskih vrijednosti. Prekojezična analiza mnijenja ima za cilj iskoristiti postojeće resurse iz jezika s bogatim računalnim podatkovnim izvorima i poboljšati ukupnu učinkovitost klasifikacije mnijenja za jezike s ograničenim računalnim podatkovnim izvorima. Resurs iz izvornog jezika izravno utječe na performanse označavanja podataka na ciljnom jeziku. Dakle, odabirom dobrog početnog resursa možemo poboljšati konačne performanse modela. U ovom dijelu istraživanja cilj nam je bio iskoristiti negaciju kao dijagnostički klasifikator za odabir dobrog kandidata za model. U prvom koraku smo procijenili koliko učinkovito jezični model detektira negaciju. Potom smo izračunali koliko je dobra analiza mnijenja u jezičnim modelima koji dobro detektiraju negaciju. Na kraju, proveli smo višezadaćno učenje modela kako bismo obogatili najbolji model. Kvantitativni eksperimenti otkrili su da je negacija umjereni signal za ispitivanje postojećeg naučenog jezičnog modela za prekojezični prijenos mnijenja. U prvom dijelu rada dali smo cjelokupni pregled postupka dijagnostičke klasifikacije naučenih jezičnih modela za prekojezičnu analizu mnijenja. U prvoj fazi ispitali smo različite naučene jezične modele na jednostavnim zadacima kako bismo provjerili njihovu korelaciju sa zadacima analize mnijenja te višezadaćno učenje. Zaključili smo da negacija ima umjerenu korelaciju s razumijevanjem mnijenja u prekojezičnoj analizi mnijenja. To nas je dovelo do zaključka da se jednostavna negacija može koristiti za odabir dobrog naučenog jezičnog modela za daljnji zadatak analize mnijenja. XLM-Roberta-osnovni model postigao je bolje performanse u usporedbi s drugim modelima. U drugom dijelu disertacije tražio se odgovor na istraživačko pitanje: kakav je učinak jezične sličnosti i raspoloživih računalnih podatkovnih izvora u višejezičnim lingvističkim modelima? Postavljene su i hipoteze: • H2: Prekojezični prijenos je uspješniji kod tipološki sličnih nego kod tipološki različitih jezika. • H3: Veliki skup označenih podataka iz udaljenije jezične porodice može pomoći u nadvladavanju tipoloških razlika, za razliku od malog skupa iz bliže jezične porodice. xi Jezici koji pripadaju istoj jezičnoj porodici dijele podskup vokabulara i zajedničkih značajki. Stoga je polazna pretpostavka bila da su računalni podatkovni izvori tih jezika prikladniji za prekojezični prijenos znanja. Da bismo dobili odgovor na drugo istraživačko pitanje, tj. proučili utjecaj tipologije na performanse prekojezične analize mnijenja, naučili su se modeli na podatkovnim skupovima engleskoga i slavenskih jezika. Korišteni su podaci jezika s bogatim računalnim podatkovnim izvorima (engleskog i ruskog) i iste jezične porodice. Izračunala se uspješnost prema tipološkoj udaljenosti jezika i usporedila s prethodnim rezultatima. Identificiran je najbolji čvorišni jezik za prijenos mnijenja. Također se ispitala unutrašnjost naučenog modela kako bi se razumjele prednosti i nedostatci modela. Korišten je model koji je u prvoj fazi ovog istraživanja identificiran kao najbolji za kodiranje značajki. U ovom dijelu doktorskog rada predložili smo jedinstveni okvir dubokog učenja za korištenje postojećih oznaka jezika s bogatim računalnim podatkovnim izvorima na jezicima s ograničenim računalnim podatkovnim izvorima. Proveli smo brojne eksperimente na jezicima koji pripadaju istoj jezičnoj porodici. Proučavali smo koliko se dobro može prenijeti sposobnost klasifikacije mnijenja dodavanjem podataka iz iste jezične porodice u usporedbi s udaljenom jezičnom porodicom. Dokazali smo da se naš okvir poboljšava nakon jednostavnog finog podešavanja, uzimajući u obzir višestruke velike podatkovne skupove za učenje. Zaključili smo da je najbolja metoda udruženog učenja sustava za analizu mnijenja kako bi se ublažio problem ograničenih resursa u ciljnim jezicima. Utvrdili smo da se prijenos znanja o mnijenju poboljšava u slučaju istih jezičnih porodica, tj. što je jezik bliži lakši je prijenos mnijenja ako imamo veliki podatkovni skup. Također smo otkrili da posjedovanje velikog podatakovnog skupa iz udaljene obitelji prilikom učenja modela može dati bolje performanse od uporabe manjih podatkovnih skupova iz sličnih jezika. Kvantitativni eksperimenti pokazuju da je dodavanje velike količine podataka iz sličnog jezika i jezika iz udaljene jezične porodice korisno za prekojezični prijenos mnijenja. U trećem dijelu disertacije tražio se odgovor na istraživačko pitanje: može li se povećanje podataka učinkovito koristiti za analizu osjećaja u jezicima sa siromašnim resursima? Postavljena je i hipoteza H4: povećanje podataka postiže točnost usporedivu s točnošću nadziranih pristupa u tipološki sličnim jezicima. Tehnike povećanja podataka imaju za cilj povećati veličinu korpusa za učenje na razne načine. Međutim, njihova primjena u obradi jezika s ograničenim podatkovnim resursima ostaje neistražena. U ovom dijelu predstavili smo naše rezultate temeljene na trima tehnikama xii povećanja podataka. Eksperimentirali smo s WordNetom i dvjema tehnikama temeljenim na transformatoru za sve jezike u istraživanju. Predložili smo dodatnu tehniku koja ne zahtijeva upotrebu dodatnih alata za obradu jezika. Nadalje, testirali smo različite količine proširenih podataka i prikazali rezultate klasifikacije mnijenja za četiri slavenska jezika s ograničenim resursima. Iako nam povećanje podataka omogućuje umjetno proširenje prostora instanci za metode dubinskog učenja, korištenje tekstualnog kodera temeljenog na transformatorima većinom ne dovodi do velikog napretka u performansama. Na kraju je izvršena analiza pogrešaka te se ukazalo na razne pojave na koje smo naišli tijekom procesa evaluacije. |