Naslov Računalna obrada i kategorizacija hrvatskih čestica za POS tagging
Naslov (engleski) Computer processing and categorization of Croatian particles for POS tagging
Autor Katharina Matić
Mentor Božo Bekavac (mentor)
Član povjerenstva Ivana Simeon (predsjednik povjerenstva)
Član povjerenstva Matea Filko (član povjerenstva)
Ustanova koja je dodijelila akademski / stručni stupanj Sveučilište u Zagrebu Filozofski fakultet (Odsjek za lingvistiku) Zagreb
Datum i država obrane 2022-02-11, Hrvatska
Znanstveno / umjetničko područje, polje i grana HUMANISTIČKE ZNANOSTI Filologija Opće jezikoslovlje (lingvistika)
Sažetak Čestice nisu jednako i sustavno kategorizirane u svim tradicionalnim gramatikama hrvatskog jezika jer za tu kategoriju ne postoji jedinstvena precizna definicija kojom bi se svi autori mogli voditi bez prostora za različite interpretacije. Budući da se status nekog leksema kao čestice uglavnom utvrđuje prema njegovoj značenjskoj funkciji u rečenici, a priroda jezične produkcije podrazumijeva i visoku razinu jezične kreativnosti te je broj rečeničnih konstrukcija i kombinacija pojedinih leksema u njima nemjerljiv, u tradicionalnim se gramatikama u kategoriju čestica u pravilu uključuje i niz drugih vrsta riječi, kao što su prilozi, ovisno o njihovoj funkciji u pojedinom kontekstu. To je osobito slučaj kad se uzme u obzir semantička dimenzija svakog iskaza, bilo u pogledu namjeravanog značenja, bilo u pogledu značenjskih odnosa među leksemima. Međutim, takva kategorizacija čestica nije praktična ni produktivna kad je riječ o računalnoj obradi jezika, u ovom slučaju konkretno označavanju vrsta riječi u korpusima hrvatskog jezika, jer se u takvoj vrsti obrade uglavnom gube semantičke i pragmatičke nijanse jezične upotrebe te je fokus na oblicima leksema i njihovim sintaktičkim ulogama.
U ovom se radu popis hrvatskih čestica nastoji ograničiti na što manji mogući broj nepromjenjivih riječi koje se neupitno mogu smatrati česticama neovisno o kontekstu. Takav se pristup čini najproduktivnijim rješenjem za potrebe računalne obrade jezika zbog njegove jednostavnosti i činjenice da se preostali leksemi koji se tradicionalno dvojno kategoriziraju kao čestice, iako prvenstveno pripadaju drugoj vrsti riječi, na taj način i dalje mogu bez poteškoća kategorizirati u skladu sa svojim primarnim kategorijama bez uplitanja semantičkih kriterija koji računalu nisu dostupni na istoj razini kao čovjeku. Pritom se izbjegava i problem relativnosti semantičkih tumačenja u vrsti obrade za koju su prije svega potrebna jasna razgraničenja i preciznost.
Sažetak (engleski) Particles are not equally and systematically categorized in traditional Croatian grammars, as there is no single precise definition for this category that all authors could use as a guide with no room for different interpretations. Since the status of a lexeme as a particle is mainly determined by its semantic function in a sentence, and since language production by its nature contains a high level of linguistic creativity, as well as considering the fact that the number of sentence constructions and combinations of individual lexemes within them is immeasurable, traditional grammars as a rule include a number of other types of speech, such as adverbs, in the category of articles depending on their function in a particular context. This is especially the case when considering the semantic aspect of each utterance, either in terms of intended meaning or in terms of semantic relations between lexemes. However, such categorization of particles is neither practical nor productive when it comes to computer processing, in this case specifically part-of-speech tagging for Croatian language corpora, because in this kind of processing the semantic and pragmatic nuances of language use are mostly lost and the focus is on the forms and syntactic roles of lexemes.
The aim of this paper is to limit the list of Croatian particles to the smallest possible number of invariable words that can undoubtedly be considered particles regardless of context. Such an approach seems to be the most productive solution for part-of-speech tagging due to its simplicity and the fact that the remaining lexemes that are traditionally doubly categorized as particles, despite primarily belonging to another part of speech, can still be easily categorized according to their primary categories without the interference of semantic criteria that are not available to computers at the same level as to humans. At the same time, this approach avoids the issue of varying semantic interpretations in a type of language processing that primarily requires clear distinctions and precision.
Ključne riječi
POS označavanje
čestice
računalna lingvistika
Ključne riječi (engleski)
POS tagging
particles
computational linguistics
Jezik hrvatski
URN:NBN urn:nbn:hr:131:973000
Studijski program Naziv: Lingvistika (dvopredmetni); smjerovi: opći, poredbeni, računalni, primijenjeni, kognitivni Smjer: računalni Vrsta studija: sveučilišni Stupanj studija: diplomski Akademski / stručni naziv: magistar/magistra lingvistike (mag. ling.)
Vrsta resursa Tekst
Način izrade datoteke Izvorno digitalna
Prava pristupa Otvoreni pristup
Uvjeti korištenja
Datum i vrijeme pohrane 2022-02-18 12:14:12