Title Računalni postupci za modeliranje i analizu medijske agende temeljeni na strojnome učenju
Title (english) Computational methods for modelling and analysis of the media agenda based on machine learning
Author Damir Korenčić
Mentor Jan Šnajder (mentor)
Mentor Strahil Ristov (komentor)
Committee member Jan Šnajder (član povjerenstva)
Committee member Strahil Ristov (član povjerenstva)
Granter University of Zagreb Faculty of Electrical Engineering and Computing (Department of Electronics, Microelectronics, Computer and Intelligent Systems) Zagreb
Defense date and country 2019, Croatia
Scientific / art field, discipline and subdiscipline TECHNICAL SCIENCES Computing Process Computing
Universal decimal classification (UDC ) 621.3 - Electrical engineering
Abstract Rad se bavi računalnim postupcima analize medijske agende (engl. Media Agenda) temeljenima na tematskim modelima (engl. Topic Models) te metodama vrednovanja tematskih modela. Analiza medijske agende provodi se radi stjecanja uvida u strukturu i zastupljenost medijskih tema, što je od interesa za društvenoznanstvena istraživanja te za medijsku industriju i druge komercijalne i političke aktere. Računalni postupci analize medijske agende omogućuju automatsko otkrivanje tema u velikim skupovima tekstova i mjerenje njihove zastupljenosti. Ovi postupci pružaju analitičaru uvid u teme prisutne u medijima i uvid u zastupljenost tema u pojedinim medijima i vremenskim razdobljima te omogućuju analizu korelacije zastupljenosti tema sa podacima poput ljudske percepcije njihove važnosti. Cilj istraživanja bio je razvoj računalnih postupaka za eksplorativnu analizu i mjerenje medijske agende temeljenih na tematskim modelima, klasi modela strojnog učenja pogodnih za analizu tematske strukture teksta. Istraživanje obuhvaća razvoj postupaka primjene tematskih modela na otkrivanje medijskih tema i mjerenje njihove zastupljenosti te razvoj računalnih alata za unaprijeđenje i provedbu tih postupaka. Ti alati obuhvaćaju metode vrednovanja tematskih modela te programsku potporu za implementaciju postupaka analize agende i vrednovanja modela. Primjena postupaka na analizu medijskih tekstova brzo je pokazala potrebu za razvojem novih metoda vrednovanja tematskih modela radi povećanja efikasnosti na modelima temeljenih postupaka. Iz tog je razloga poseban naglasak istraživanja bio na razvoju i analizi metoda vrednovanja tematskih modela. Prvo je provedeno istraživanje postupaka primjene tematskih modela na analizu medijske agende. Na temelju istraživanja postojećih postupaka predložen je poboljšani postupak koji se sastoji od tri koraka: koraka otkrivanja tema, koraka definicije tema i koraka mjerenja tema. Predloženi postupak otklanja uočene nedostatke ranijih metoda: upotrebu samo jednog modela za otkrivanje tema, nemogućnost prilagodbe i definicije novih tema te izostanak kvantitativnog vrednovanja metoda mjerenja. Postupak je primijenjen u dvije analize medijske agende provedene na zbirkama američkih i hrvatskih političkih vijesti. Na temelju opažanja i podataka iz tih analiza uočena je potreba za mjerom interpretabilnosti tema modela te za metodom mjerenja pokrivenosti skupa koncepata od strane modela. Drugi istraženi problem bio je problem mjerenja interpretabilnosti tema modela. Standardni pristup ovom problemu je mjerenje semantičke koherentosti tema, a postojeće mjere koherentnosti temelje se na računanju koherentosti skupa uz temu vezanih riječi. Ove mjere pokazale su se nepogodnima u slučaju prolaznih medijskih tema karakteriziranih semantički nepovezanim riječima. Predložena je nova klasa mjera koherentosti medijskih tema temeljenih na uz teme vezanim dokumentima. Vrednovanje niza predloženih mjera na skupovima engleskih i hrvatskih medijskih tema otkrilo je najbolju mjeru koja računa koherentnost agregacijom lokalne povezanosti grafa dokumenata. Provedena je kvantitativna i kvalitativna usporedba razvijenih mjera dokumentne koherentosti s postojećim mjerama koherentnosti riječi koja je otkrila komplementarnost ova dva tipa mjera. Treći istraženi problem je problem pokrivenosti tema, motiviran podacima iz primjene postupka analize medijske agende, koji su pokazali da jedan tematski model pokriva samo dio svih otkrivenih koncepata. Problem pokrivenosti nadilazi domenu medijskih tekstova i unatoč važnosti ovog problema dosadašnja istraživanja na tu temu su rudimentarana. Problem pokrivenosti razmotren je u općenitosti i definiran kao problem mjerenja poklapanja između skupa automatski naučenih tema modela i skupa referentnih tema koji sadrži od ljudi uočene koncepte. Predložena je metoda izrade skupa referentnih tema i dvije metode mjerenja pokrivenosti temeljene na računanju poklapanja tema. Predložene mjere vrednovane su na dva raznorodna skupa podataka, medijskom i biološkom, te primijenjene na analizu četiri različite klase standardnih tematskih modela. Završni korak istraživanja postupka analize medijske agende bio je poboljšanje postupka na temelju predloženih metoda vrednovanja tematskih modela i iskustava iz primjena postupka na analizu hrvatskih i američkih medija. Glavna poboljšanja odnose se na korak eksplorativne analize odnosno otkrivanja tema i temelje se na razvijenim mjerama pokrivenosti i dokumentne koherentosti tema. Ova poboljšanja imaju za cilj brže otkrivanje većeg broja koncepata. Ostala poboljšanja odnose se na povećanje efikasnosti postupka interpretacije tema modela. Tijekom istraživanja postupka analize medijske agende i metoda vrednovanja tematskih modela uočen je niz problema vezanih uz upotrebu, izgradnju, pohranu i dohvat tematskih modela i vezanih resursa. Ovi problemi javljaju se kod implementacije grafičkog korisničkog sučelja za provedbu postupka i kod provedbe eksperimenata vrednovanja. Rješavanju ovih problema pristupilo se sustavno i oblikovan je radni okvir za izgradnju i upravljanje resursima u tematskom modeliranju. Arhitektura okvira temelji se na četiri načela koja u kombinaciji definiraju općenitu i fleksibilnu metodu izrade programske potpore za primjenu i vrednovanje tematskih modela. Razvijeni su i grafičko korisničko sučelje za eksplorativnu analizu i potporu mjerenju zastupljenosti tema te aplikacija namijenjena izradi zbirki medijskih tekstova koja tijekom duljeg vremenskog razdoblja sakuplja tekstove iz niza web-izvora.
Abstract (english) This thesis focuses on computational methods for media agenda analysis based on topic models and methods of topic model evaluation. The goal of a media agenda analysis is gaining insights into the structure and frequency of media topics. Such analyses are of interest for social scientists studying news media, journalists, media analysts, and other commercial and political actors. Computational methods for media agenda analysis enable automatic discovery of topics in large corpora of news text and measuring of topics’ frequency. Data obtained by such analyses provides insights into the type and structure of topics occurring in the media, enables the analysis of topic cooccurrence, and analysis of correlation between topics and other variables such as text metadata and human perception of topic significance. The goal of the research presented in the thesis is development of efficient computational methods for the discovery of topics that constitute the media agenda and methods for measuring frequencies of these topics. The proposed methods are based on topic models – a class of unsupervised machine learning models widely used for exploratory analysis of topical text structure. The research encompasses the development of applications of topic models for discovery of media topics and for measuring topics’ frequency, as well as development of methods for improvement and facilitation of these applications. The improvement and facilitation methods encompass methods of topic model evaluation and software tools for working with topic models. Methods of topic model evaluation can be used for selection of high-quality models and for accelerating the process of topic discovery. Namely, topic models are a useful tool, but due to the stohasticity of the model learning algorithms the quality of learned topics varies. For this reason the methods of topic model evaluation have the potential to increase the efficiency of the methods based on topic models. In the first phase of the research, an analysis of existing computational methods for media agenda analysis is performed and a new method that improves and systematizes the existing ones is proposed. The application of the proposed method in two use-cases underlined the need for new methods of topic model evaluation that would improve the efficiency of topic-model based tools. Consequently, two new methods of topic model evaluation are proposed – document-based measures of topic coherence and methods for analysis of topic coverage. These evaluation methods are then applied to improve the initially proposed method for media agenda analysis. In addition, research of topic model applications and methods of topic model evaluation led to a framework for resource building and management in topic modelling. The four main contributions of the thesis are: a method for computational analysis of the media agenda based on topic models, document-based measures of topic coherence, methods for analysis of topic coverage, and the framework for resource building and management in topic modelling.
Keywords
Medijska agenda
tematski modeli
vrednovanje tematskih modela
koherentnost tema
pokrivenost tema
mjere udaljenosti tema
izgradnja tematskih modela
nenadzirano učenje
nadzirano učenje.
Keywords (english)
Media agenda
Topic models
Topic model evaluation
Topic coherence
Topic coverage
Topic distance measures
Topic model construction
Unsupervised learning
Supervi- sed learning.
Language croatian
URN:NBN urn:nbn:hr:168:194046
Study programme Title: Electrical Engineering and Computing Study programme type: university Study level: postgraduate Academic / professional title: Doktor znanosti elektrotehnike i računarstva (Doktor znanosti elektrotehnike i računarstva)
Type of resource Text
Extent 216 str. ; 30 cm
File origin Born digital
Access conditions Open access Embargo expiration date: 2020-03-01
Terms of use
Created on 2020-01-20 09:13:01