Računalom potpomognuta izgradnja i semantičko pretraživanje zbirki pitanja i odgovora

Karan, Mladen

Naslov (engleski)

Computer-aided construction and semantic search of question and answer collectioms

Mentor

Ustanova koja je dodijelila
akademski / stručni stupanj

Sveučilište u Zagrebu
Fakultet elektrotehnike i računarstva
(Zavod za elektroniku, mikroelektroniku, računalne i inteligentne sustave)
Zagreb

Znanstveno / umjetničko
područje, polje i grana

TEHNIČKE ZNANOSTI
Računarstvo
Obradba informacija

Sažetak

Rad se bavi nizom zadataka definiranih nad zbirkama često postavljanih pitanja (engl. Frequently Asked Question Collections – FAQ-zbirke). Takve zbirke sačinjavaju dokumenti koji se sastoje od pitanja i odgovora na to pitanje. Ovakav način strukturiranja informacija često koriste veliki pružatelji usluga, kao što su telekomunikacijski operateri, banke, javna i državna uprava, internetske trgovine i sl. U praksi, ove su zbirke tipično izgrađene specifično za neku domenu te sadrže ograničen broj... Više informacijskih potreba. Ova specifična svojstva nekad se mogu iskoristiti za poboljšanje razvijanih modela i postupaka koji djeluju nad FAQ-zbirkama. Cilj istraživanja bio je razvoj rješenja niza zadataka koji su ključni za uspješno korištenje FAQ-zbirki. Zadatci uključuju sve važnije poglede upravljanja FAQ-zbirkom, od njene izgradnje i održavanja do semantičkog pretraživanja. Rješavanje ovih zadataka vrlo je složeno zbog kratkoće tekstova i višeznačnosti prirodnog jezika zbog kojih se javlja “leksički jaz” između korisničkih upita i dokumenata. Pri istraživanju poseban je naglasak bio na razmatranju strojno potpomognutih postupaka koji bi što više smanjili količinu ljudskog rada potrebnu za upravljanje FAQ-zbirkom. Za provođenje istraživanja izgrađena su tri skupa podataka na engleskom jeziku, te je korišten od prije izgrađen četvrti skup podataka na hrvatskom jeziku. Provedeno je predistraživanje na skupu podataka za hrvatski jezik u kojem je pokazano da su neki od predloženih postupaka semantičkog pretraživanja FAQ-zbirke dovoljno jezično neovisni za primjenu na proizvoljan jezik. Za engleski jezik provedena su dva predistraživanja kojima je potvrđeno da su skupovi reprezentativni za uvjete kakvi se javljaju u praktičnim primjenama te da su prikladni za daljnje istraživanje, koje je provedeno samo za engleski jezik. Prvi istražen zadatak jest strojno potpomognuta izgradnja FAQ-zbirke. Potrebno je, uz skup korisničkih upita i dokumentaciju o postojećim proizvodima i uslugama, izgraditi FAQ-zbirku koja će biti namijenjena zadovoljavanju najčešćih informacijskih potreba korisnika. Izgradnja se provodi u dva koraka. Prvo se korisnički upiti grupiraju u grupe takve da upiti pojedine grupe adresiraju istu informacijsku potrebu. Za ovo je predložen postupak grupiranja s ograničenjima temeljen na aktivnom učenju. Nakon toga dohvaćaju se potencijalno relevantni tekstovi iz dokumentacije za svaku od informacijskih potreba pronađenih u prvom koraku. Dohvat je ostvaren pomoću klasičnih postupaka za pretraživanje informacija. Navedeni koraci olakšavaju i ubrzavaju izgradnju FAQ-zbirke jer automatiziraju značajan dio posla. Drugi zadatak jest postupak za otkrivanje pitanja koja nisu pokrivena FAQ-zbirkom. Ovakva se pitanja pojavljuju kada se, nakon dužeg vremena korištenja, pojavi nova informacijska potreba korisnika koja nije prisutna u FAQ-zbirci. Predložen je postupak za otkrivanje nedostajućih pitanja temeljen na nadziranom strojnom učenju. Rješavanje ovog zadatka omogućava naknadnu nadopunu FAQ-zbirke potrebnim pitanjima i odgovorima te tako poboljšava njeno pokrivanje informacijskih potreba korisnika. Konačno, najvažniji doprinos rada jest niz modela za semantičko pretraživanje FAQ-zbirke. Predložene su dvije vrste modela, koji se temelje na nadziranome strojnom učenju rangiranja. Prva vrsta modela, uz same riječi u tekstu, koristi niz lingvistički motiviranih značajki kao što su oznake vrste riječi ili jezgrene funkcije nad sintaktičkim stablima. Druga vrsta modela temelji se na konvolucijskoj neuronskoj mreži, koja radi izravno sa semantičkim vektorskim reprezentacijama riječi. Pokazano je da obje vrste modela daju zadovoljavajuće rezultate uz podatke označene strategijom usmjerenom na parafraze. Iz toga proizlazi da predloženi modeli pružaju u praksi značajna poboljšanja točnosti pretraživanja u usporedbi s nenadziranim alternativama, ali uz razmjerno malen rad uložen u označavanje. Sakrij dio sažetka

Ključne riječi

Jezik

hrvatski

Studijski program

Naziv: Elektrotehnika i računarstvo
Vrsta studija: sveučilišni
Stupanj studija: poslijediplomski doktorski
Akademski / stručni naziv: Doktor znanosti elektrotehnike i računarstva (dr.sc.)

Opseg

141 str. ; 30 cm.

Prava pristupa

Zatvoreni pristup

Datum i vrijeme pohrane

2019-04-04 16:27:48

Search form

closePristupačnostrefresh

Pristupačnost