Abstract | Rad se bavi nizom zadataka definiranih nad zbirkama često postavljanih pitanja (engl. Frequently Asked Question Collections – FAQ-zbirke). Takve zbirke sačinjavaju dokumenti koji se sastoje od pitanja i odgovora na to pitanje. Ovakav način strukturiranja informacija često koriste veliki pružatelji usluga, kao što su telekomunikacijski operateri, banke, javna i državna uprava, internetske trgovine i sl. U praksi, ove su zbirke tipično izgrađene specifično za neku domenu te sadrže ograničen broj informacijskih potreba. Ova specifična svojstva nekad se mogu iskoristiti za poboljšanje razvijanih modela i postupaka koji djeluju nad FAQ-zbirkama. Cilj istraživanja bio je razvoj rješenja niza zadataka koji su ključni za uspješno korištenje FAQ-zbirki. Zadatci uključuju sve važnije poglede upravljanja FAQ-zbirkom, od njene izgradnje i održavanja do semantičkog pretraživanja. Rješavanje ovih zadataka vrlo je složeno zbog kratkoće tekstova i višeznačnosti prirodnog jezika zbog kojih se javlja “leksički jaz” između korisničkih upita i dokumenata. Pri istraživanju poseban je naglasak bio na razmatranju strojno potpomognutih postupaka koji bi što više smanjili količinu ljudskog rada potrebnu za upravljanje FAQ-zbirkom. Za provođenje istraživanja izgrađena su tri skupa podataka na engleskom jeziku, te je korišten od prije izgrađen četvrti skup podataka na hrvatskom jeziku. Provedeno je predistraživanje na skupu podataka za hrvatski jezik u kojem je pokazano da su neki od predloženih postupaka semantičkog pretraživanja FAQ-zbirke dovoljno jezično neovisni za primjenu na proizvoljan jezik. Za engleski jezik provedena su dva predistraživanja kojima je potvrđeno da su skupovi reprezentativni za uvjete kakvi se javljaju u praktičnim primjenama te da su prikladni za daljnje istraživanje, koje je provedeno samo za engleski jezik. Prvi istražen zadatak jest strojno potpomognuta izgradnja FAQ-zbirke. Potrebno je, uz skup korisničkih upita i dokumentaciju o postojećim proizvodima i uslugama, izgraditi FAQ-zbirku koja će biti namijenjena zadovoljavanju najčešćih informacijskih potreba korisnika. Izgradnja se provodi u dva koraka. Prvo se korisnički upiti grupiraju u grupe takve da upiti pojedine grupe adresiraju istu informacijsku potrebu. Za ovo je predložen postupak grupiranja s ograničenjima temeljen na aktivnom učenju. Nakon toga dohvaćaju se potencijalno relevantni tekstovi iz dokumentacije za svaku od informacijskih potreba pronađenih u prvom koraku. Dohvat je ostvaren pomoću klasičnih postupaka za pretraživanje informacija. Navedeni koraci olakšavaju i ubrzavaju izgradnju FAQ-zbirke jer automatiziraju značajan dio posla. Drugi zadatak jest postupak za otkrivanje pitanja koja nisu pokrivena FAQ-zbirkom. Ovakva se pitanja pojavljuju kada se, nakon dužeg vremena korištenja, pojavi nova informacijska potreba korisnika koja nije prisutna u FAQ-zbirci. Predložen je postupak za otkrivanje nedostajućih pitanja temeljen na nadziranom strojnom učenju. Rješavanje ovog zadatka omogućava naknadnu nadopunu FAQ-zbirke potrebnim pitanjima i odgovorima te tako poboljšava njeno pokrivanje informacijskih potreba korisnika. Konačno, najvažniji doprinos rada jest niz modela za semantičko pretraživanje FAQ-zbirke. Predložene su dvije vrste modela, koji se temelje na nadziranome strojnom učenju rangiranja. Prva vrsta modela, uz same riječi u tekstu, koristi niz lingvistički motiviranih značajki kao što su oznake vrste riječi ili jezgrene funkcije nad sintaktičkim stablima. Druga vrsta modela temelji se na konvolucijskoj neuronskoj mreži, koja radi izravno sa semantičkim vektorskim reprezentacijama riječi. Pokazano je da obje vrste modela daju zadovoljavajuće rezultate uz podatke označene strategijom usmjerenom na parafraze. Iz toga proizlazi da predloženi modeli pružaju u praksi značajna poboljšanja točnosti pretraživanja u usporedbi s nenadziranim alternativama, ali uz razmjerno malen rad uložen u označavanje. |
Abstract (english) | This thesis focuses on several tasks concerning frequently asked question (FAQ) collections. Such collections are composed of documents containing a question and a corresponding answer. This way of structuring information is often used by large-scale service providers, such as telecom-operators, banks, state-administration, internet-stores etc. In practical applications FAQ collections are often small and contain a limited number of unique information needs. These specific properties can sometimes be utilized when developing solutions for tasks dealing with FAQ collections. The goal of this research was developing solutions for several tasks that are very important for successful use of FAQ collections. The tasks include all important aspects of managing FAQ collections, ranging from building and maintenance to semantic search. Solving these tasks is very difficult due to the shortness of texts and ambiguity of natural language, which cause a “lexical gap” between queries and documents. An additional research goal was exploring machine-aided approaches that would minimize the amount of human effort required for FAQ collection management. To evaluate the proposed methods, one existing data set in Croatian was used and three additional data sets in English were built. Preliminary experiments were conducted on the Croatian data set, which demonstrated that some of the proposed semantic search methods are sufficiently language independent to be applied to any language. Furthermore, two sets of preliminary experiments were conducted on the English data set. These experiments ensured that the data sets are representative of real-world conditions that arise in practical applications of FAQ collections and are thus suitable for the rest of this research, which was conducted only for English. The first task considered is machine-aided construction of a FAQ collection. The task is to, given a set of user queries and documentation about existing products and services, build a FAQ collection that addresses the most frequent information needs of users. The construction consists of two steps. First, user queries are grouped such that queries from a given group address the same information need. To this end, a constrained clustering approach based on active learning was proposed. Next, potentially relevant answer text from the documentation is retrieved for each of the information needs identified by the first step. The retrieval is performed using standard information retrieval methodology. These steps make the construction of the FAQ collection easier and faster. Second, a method for detecting questions that are not covered by the FAQ collection. Such questions appear when, after a prolonged period of use, a new information need arises among the users, which is absent in the FAQ collection. A method for detecting such cases based on supervised machine learning is proposed. Solving this task enables additional supplementation of the FAQ collection with missing questions and answers, thus increasing its coverage of user information needs. Finally, the most important contribution of this thesis are several models for semantic search on FAQ collections. Two types of models ere proposed, both based on supervised learning to rank. The first type, along with word features, uses several linguistically motivated features, such as part-of-speech tags, or syntax tree-based kernel functions. The second type of models is based on a convolutional neural network that operates directly on semantic vector word representations. It is shown that both types of models give good results even when trained on data labeled with a paraphrase-focused strategy. Consequently, the models provide practically-relevant performance improvements over unsupervised alternatives, while requiring little annotation effort. |