Abstract | Mišljenje uvelike utječe na način na koji se osobe ponašaju, djeluju i odlučuju. Prije neke važne odluke, ljudi će pitati za mišljenje svoje bližnje, no razvojem Interneta mijenja se način na koji ljudi izražavaju i traže mišljenja. U današnje vrijeme postoje razni tipovi stranica gdje osobe mogu izraziti svoje stavove: društvene mreže, portali, blogovi, forumi i slično. Međutim, zbog prevelike količine dostupnih podataka teško je dobiti jasno izražene stavove i mišljenja kako pojedinaca tako i ciljanih skupina. Jedan od osnovnih problema predstavlja broj različitih izvora koji sadrže mišljenja što može otežati ljudima traženje onih relevantnih. Što dovodi do sve veća potrebe za automatskim otkrivanjem mišljenja, odnosno analizom sentimenta. Ova vrsta analize postaje sve popularnija u mnogim domenama: politici, zdravstvu, proizvodnji potrošačkih proizvoda, raznim uslugama i slično. Jedan od osnovnih zadataka analize sentimenta je klasifikacija prema polaritetu, odnosno odvajanje tekstova koji sadrže sentiment u tri kategorije: pozitivnu, negativnu i neutralnu. Ovaj rad obuhvaća teoretski dio u kojem su opisani i objašnjeni glavni pojmovi analize sentimenta te istraživački dio koji se bazira na analizi komentara s portala Index i Jutarnji list te mikroblogova vezanih uz temu izbjegličke krize. Analiza je podijeljena u dva dijela: u prvom dijelu je izrađena frekvencijska analiza riječi u rečenici te je izrađen program koji uči i testira klasifikator pomoću pripremljenog korpusa. U rezultatima je dobiveno da su najčešće korištene riječi u komentarima: „bravo“, „čovjek“, „izbjeglica“ i „eu“ , te da klasifikator maksimalne entropije ima najveći postotak točnosti za ovaj korpus. Drugi dio analize se sastoji od usporedbe korištenog vokabulara i ukupnog sentimenta dva skupa podataka koji su prikupljeni u dva različita vremenska perioda. Rezultati su prikazani u obliku histograma i tablica, a program je napisan u programskom jeziku Python. Cilj rada je analizirati podatke i zaključiti koji su stav ljudi imaju u vezi izbjeglica te vidjeti postoji li razlika u stavu kroz određeni vremenski period. |
Abstract (english) | Opinion has a strong influence on how people behave and therefore is a central part of all human activity. Before making an important decision, most people ask for an opinion of their closest friends and family, but big development of the Internet changed the way people express and search opinions. Nowadays, there are a lot of web pages where a person can express their opionon: social networks, portals, blogs, forums, etc. However, due to large amounts of available data, certain issues may arise. In the first place, there are a lot of different sources of data so people may have difficulties finding the ones that are relevant. Therefore, there is an increasing need for automatic detection of opinion, respectively sentiment analysis. This type of analysis is becoming more popular in many domains: politics, healthcare, production of consumer products, and various other services, etc. One of the tasks of sentiment analysis is classfication according to the polarity, respectively separation of texts in three categories: positive, negative and neutral. This paper consists of theoretical part where main concepts are explained and research part which is based on the analysis of the comments collected from portals „Index“ and „Jutarnji list“ and microblogs, that contain opinions about refugees. The analysis is divided into two parts: the first one contains frequency analysis of words in the sentence and results from a program which is using the prepared corpus for learning and testing the classifiers. Results from the analysis show that the most commonly used words in the comments are: „bravo“, „čovjek“, „izbjeglica“ and „eu“, and that the classifier with the highest percentage of accuracy for this corpus is maximum entropy. The second part of the analysis consists of the comparison of the used vocabulary and overall sentiment from two sets of data collected in two different time periods. Results are shown in the form of histograms and tables, and the program is written in programming language Python. The aim of the paper is to analyze the data and figure out what kind of opinion do people have about refugees, and to see if there is a difference in the opinion over a certain period of time. |