Sažetak | This thesis aims to propose new corpus-based syntactic typological methods for the extraction of syntactic features from annotated corpora (first hypothesis) and to examine the potential of these quantitative strategies for dependency parsing improvement via corpora association (second hypothesis). In the first part, we presented the obtained corpus-based typological classifications of the 20 languages present in the Parallel Universal Dependencies collection and compared them to the classic phylogenetic classification and the typological ones built with syntactic classification provided by typological databases. We showed that although the corpus-based approaches present results with some similarities with the standard ones, each method provides a classification from a different angle, thus, allowing languages to be classified differently. In the second part, we examined the improvement in terms of dependency parsing results obtained with the UDify tool when models were trained with two different languages in comparison with the monolingual models. Then, these results were correlated with the different typological approaches to identify the most efficient strategies to select the best language-pairs for dependency parsing improvement. Additionally, in the third part, we applied the selected corpus-based methods to all 24 European-Union languages with corpora provided by the Universal Dependencies collection and analysed the obtained classifications. Furthermore, we conducted experiments to improve the parsing results for 4 European Union low-resourced languages and Croatian. Maltese and Hungarian were the languages with the best significant improvement for both parsing scores, showing the potential of the strategies for the languages with small training-sets, while Croatian and Lithuanian presented a positive delta for only one of the evaluation metrics. Irish, on the other hand, did not present any improvement. We showed that from the selected typological methods, MarsaGram linear patterns (cosine) and MarsaGram all properties were the ones that generated the best improvements and that longer sentences tend to benefit the most in terms of parsing enhancement when languages are combined. |
Sažetak (hrvatski) | Cilj je ove disertacije predložiti nove korpusno utemeljene sintaktičke tipološke metode koje karakterizira izvlačenje sintaktičkih značajki iz obilježenoga korpusa, te istražiti mogućnosti takvih kvantitativnih strategija za poboljšanje rezultata ovisnosnoga parsanja s pomoću kombiniranja korpusnih podataka. U tu smo svrhu prvo, na temelju tipoloških teorija, analizirali različite načine izvlačenja sintaktičkih informacija iz usporednih korpusa 20 jezika svijeta, a potom proveli eksperimente s ovisnosnim parsanjem kako bismo, korištenjem metrika za evaluaciju parsanja, kvantificirali sinergiju dobivenu kombiniranjem jezičnih parova. Nakon toga smo provjerili kako svaka od klasifikacija temeljena na kvantitativnim tipološkim metodama korelira s rezultatom evaluacije parsanja, na temelju čega smo pronašli optimalne strategije za poboljšanje ovisnosnoga parsanja. Koristeći se odabranim tipološkim metodama, proširili smo analizu na sve jezike Europske unije pružajući detaljnu tipološku sintaktičku karakterizaciju svakoga od njih. Naposljetku, proveli smo niz eksperimenata s parsanjem nad četirima jezicima Europske unije s malo računalnih podatkovnih izvora i hrvatskim. Prva nam je hipoteza da se određivanjem sintaktičke tipološke udaljenosti među jezicima koristeći se statističkim podacima iz označenih korpusa mogu iznaći novi načini klasifikacije jezika. Slijedom toga, u prvom smo dijelu ove disertacije predstavili četiri potencijalne tipološke metode temeljene na korpusu za višejezičnu sintaktičku karakterizaciju. Dvije se metode temelje na sintaktičkim obrascima izvučenima s pomoću alata MarsaGram. Taj alat iz tekstova u kojima su označene vrste riječi i ovisnosna sintaksa izvlači i kvantificira sintaktičke obrasce koristeći se beskontekstnim gramatikama. Jedna metoda uzima u obzir sve značajke koje MarsaGram izvlači (linear, exclude, require i unicity) (metoda MARSAGRAM SVE), dok druga gleda samo značajku linear koja opisuje red riječi u sintaktičkom podstablu (metoda MARSAGRAM LINEAR). Treća metoda kvantificira značajke prema relativnoj poziciji glava i dependenata (metoda GLAVA-DEPENDENT), dok četvrtu sačinjava analiza pozicija glagola i objekta potvrđenih u korpusu (metoda GLAGOL-OBJEKT). Identificirane su značajke i njihova frekvencija korištene za izradu vektora koji su potom uspoređivani s pomoću euklidske i kosinusne udaljenosti, tj. izradom matrice različitosti na osnovu kojih su izrađeni dendrogrami. ix Dobivene klasifikacije 20 jezika iz zbirke Parallel Universal Dependencies uspoređene su s klasičnom filogenetskom klasifikacijom te s tipološkom klasifikacijom izgrađenom s pomoću sintaktičkih značajki iz tipoloških baza podataka. Pokazali smo da, iako korpusno utemeljeni pristupi daju rezultate koji su usporedivi sa standardnim pristupima, svaka metoda pruža mogućnost za klasifikaciju jezika iz malo drukčije sintaktičke perspektive. Drugi dio ove disertacije posvećen je analizi sinergije koja se očituje u poboljšanju rezultata ovisnosnoga parsanja kada se kombiniraju korpusi dvaju jezika te usporedbi tih rezultata s klasifikacijama jezika dobivenima u prvome dijelu. U tu je svrhu korišten UDify softver, alat baziran na dubokom strojnom učenju s višejezičnim BERT jezičnim modelom. Druga je hipoteza ove disertacije da su tipološke klasifikacije nastale mjerenjem kvantitativne sintaktičke tipološke udaljenosti među jezicima efikasan način identifikacije tipološki sličnih jezika čiji se korpusi mogu kombinirati u svrhu poboljšanja rezultata automatske sintaktičke anotacije provedene alatom dubokog strojnog učenja. Prvo smo od rezultata evaluacije ovisnosnoga parsanja s pomoću modela treniranih na jednojezičnim skupovima za učenje definirali referentne vrijednosti naših eksperimenata. Uočili smo da su, iako su korpusi usporedni, rezultati prilično varirali i korelirali s veličinom reprezentacije jezika u višejezičnom modelu mBERT. Kad smo jezike kombinirali, uočili smo da su neki od njih skloniji uzrokovati poboljšanje rezultata, a ta se poboljšanja ne mogu objasniti blizinom u smislu genealoških značajki. Nadalje, kad se ti rezultati usporede s vrijednostima udaljenosti iz matrice različitosti dobivene s pomoću različitih metoda baziranih na korpusu, može se uočiti da je strategija bazirana na linearnim obrascima dobivenim iz MarsaGrama (kosinusna udaljenost) ona s najviše umjerenih i jakih korelacija. Uz to, analizirali smo potencijal svake od metoda da odabere najbolji jezični par za poboljšanje rezultata ovisnosnoga parsanja i zaključili da tri strategije donose najbolje rezultate: ona koja uzima u obzir sve značajke MarsaGrama (kosinusna udaljenost), ona koja uzima u obzir samo linearne obrasce (kosinusna udaljenost) te specifična strategija dobivena linearnom regresijom koja kombinira metode MARSAGRAM SVE i GLAVA-DEPENDENT (euklidska udaljenost). Osim njih, prepoznali smo i metodu GLAGOL-OBJEKT kao onu koja daje najveći broj točnih odabira jezičnih parova kad druge metode podbace. Standardna sintaktička tipološka klasifikacija davala je nešto bolje rezultate za određene metrike evaluacije ovisnosnoga parsanja, no njome se nismo mogli koristiti za analizu svih jezika Europske unije s obzirom na to da za neke od njih nema dovoljno podataka u tipološkim bazama podataka. x U trećem smo dijelu primijenili odabrane metode na sva 24 jezika Europske unije na korpusima iz zbirke Universal Dependencies. Utvrdili smo da upotreba neusporednih korpusa nije negativno utjecala na metode i predstavili smo sintaktički tipološki opis tih jezika s 10 drugih svjetskih jezika. Nadalje, analizirajući dostupnost označenih korpusa i postojanja znanstvene literature na temu ovisnosnoga parsanja, zaključili smo da su mađarski, irski, litavski i malteški jezici s najmanje računalnih podatkovnih izvora u našem uzorku. Stoga smo proveli niz eksperimenata s ciljem kombiniranja korpusa u svrhu poboljšanja rezultata ovisnosnoga parsanja. Osim toga, analizirali smo korisnost primjene predstavljenih metoda na hrvatski, za koji bi se, iako ima više računalnih podatkovnih izvora od spomenutih četiriju jezika, rezultati automatskoga parsanja mogli značajno poboljšati. Pokazali smo da su od odabranih četiriju tipoloških metoda metode MARSAGRAM LINEAR i MARSAGRAM SVE one koje su dovele do najvećeg poboljšanja rezultata. Od svih analiziranih jezika za mađarski i malteški (dakle, za jezike s najmanjim korpusima za učenje) pokazala su se najveća poboljšanja rezultata parsanja u objema evaluacijskim metrikama. Na primjeru irskog nisu se pokazala značajna poboljšanja. Također smo primijetili da kombiniranje jezika najviše poboljšava rezultate parsanja na složenim rečenicama. Naposljetku, pokazali smo da korpusno utemeljene metode mogu dati novu perspektivu sintaktičkoj tipološkoj analizi jezika te da su te metode korisne za poboljšanje rezultata automatskoga ovisnosnog parsanja jezika s malo računalnih podatkovnih izvora. |