Title Računalno prepoznavanje i označavanje negacije u hrvatskom
Title (english) Recognizing and Annotating Negation in Croatian
Author Natalija Žanpera
Mentor Krešimir Šojat (mentor)
Mentor Kristina Kocijan (komentor)
Committee member Božo Bekavac (predsjednik povjerenstva)
Committee member Kristina Kocijan (član povjerenstva)
Committee member Krešimir Šojat (član povjerenstva)
Granter University of Zagreb Faculty of Humanities and Social Sciences (Department of Linguistics) Zagreb
Defense date and country 2020-09-30, Croatia
Scientific / art field, discipline and subdiscipline HUMANISTIC SCIENCES Philology General Linguistics
Abstract Ovaj rad bavi se prefiksalnom negacijom pridjeva hrvatskoga jezika, odnosno negacijom na morfološkoj razini. Definicija negacije unutar ovoga rada odnosi se na izravnu negaciju, prema kojoj „bez prefiksa nešto jest, dodavanjem prefiksa više nije ili dobiva suprotno značenje.“ Točnije, rad se bavi pridjevima koji dodavanjem negacijskoga prefiksa čine suprotni pojam, stoga se radi o morfološki povezanim ili istokorijenskim antonimima. Prvi dio rada donosi prikaz negacije i negacijskih prefikasa kroz hrvatske gramatike i ostale relevantne jezične izvore, a gdje je to moguće radi se i usporedba s engleskim jezikom. Također se prikazuju dosadašnja istraživanja ovog fenomena iz kognitivne i računalne domene. Prikupljanjem korpusa za računalnu obradu napravljena je i analiza prefiksalno negiranih pridjeva iz hrvatskog mrežnog korpusa „hrWaC“, pri čemu su opovrgnute neke dosadašnje teorijske postavke. Korpus sadrži 2024 konkordancije u kojima je bilo potrebno pronaći 2113 pridjeva. Drugi dio rada odnosi se na pisanje rječnika i gramatike u programu za računalnu obradu prirodnog jezika – NooJ, sa svrhom da gramatika prepozna kojim prefiksom i s kojom pridjevskom osnovom je stvorena nova riječ te novonastaloj riječi dodijeli morfološke oznake osnove i promijeni joj polaritet iz pozitivnoga u negativni. U rječnik su unesena 322 pridjeva – osnove, odnosno pridjevi bez negacijskoga prefiksa kojima je stoga dodijeljena oznaka pozitivnog polariteta te im je dodijeljena paradigma. Za tu svrhu napravljeno je 50 flektivnih gramatika s deklinacijskim obrascima. Zatim je napravljena morfološka gramatika za prepoznavanje i promjenu polariteta pridjeva i naposljetku sintaktička gramatika za primjenu na korpusu. Naposljetku se izračunala učinkovitost gramatike, prema parametrima preciznosti i odziva. Preciznost gramatike je 95.3%, ukazujući na probleme u označavanju zbog homografije, a odziv je 100%, odnosno nijedan prefiksalno negirani pridjev nije promaknuo morfološkoj gramatici u prepoznavanju i označavanju. Ova gramatika pruža model za daljnja istraživanja ovoga fenomena, poput nadograđivanja sa svrhom razrješenja morfosintaktičke višeznačnosti, ali i detaljnije analize sa svrhom prepoznavanja ostalih jezičnih obrazaca.
Abstract (english) The paper studies the prefixal negation of Croatian adjectives, i.e., morphological negation. The paper narrows its scope to direct negation – ‘before adding the prefix something is, after the prefix something isn’t, or it gets the opposite meaning’. Specifically, this paper analyses morphologically related antonyms – adjectives that produce the opposite term by adding the negation prefix. The first part of the paper consists of a negation and negational prefixes overview in Croatian grammars and other relevant language sources. Where possible, a comparison between the Croatian and English language is made. Additionally, this paper overviews some of the cognitive and computational research about this phenomenon. While collecting the corpora for computational processing, a short analysis of the prefixal negation is made for adjectives from the Croatian web corpus ‘hrWaC’. This analysis resulted in a rebuttal of some of the theoretical assumptions. The corpus consists of 2,024 concordances with 2,113 adjectives. The second part of the paper consists of writing a dictionary and a grammar in a program for natural language processing – NooJ. The purpose of the grammar is to recognize from which prefix and which base a new word is formed, assigning it the morphological annotations of the base and changing its polarity from positive to negative. The dictionary consists of 322 adjectives. These are the adjectives without the negation prefix that are assigned the positive polarity annotation and a paradigm. For this purpose, 50 inflectional grammars have been made, as well as the morphological grammar for recognizing and changing the adjective’s polarity, and the syntactic grammar for applying on the corpus. Finally, the grammar’s efficiency is calculated with precision and recall parameters. The precision of the grammar is 95.3% due to the annotation mistakes related to homography. The recall of this grammar is 100%, meaning the grammar has recognized and annotated all adjectives. This grammar provides a model for future research of this phenomenon, such as upgrading it with the purpose of morphosyntactic disambiguation, as well as further analysis to recognize other language patterns.
Keywords
negacija
prefiksalna negacija
pridjevi
hrvatski jezik
obrada prirodnog jezika
NooJ
Keywords (english)
negation
prefixal negation
adjectives
Croatian language
natural language processing
NooJ
Language croatian
URN:NBN urn:nbn:hr:131:050307
Study programme Title: Linguistics (double major); specializations in: General Linguistics, Comparative Linguistics, Computational Linguistics, Aplied Linguistics and Cognitive Linguistics, Cognitive Course: Computational Linguistics Study programme type: university Study level: graduate Academic / professional title: magistar/magistra lingvistike (magistar/magistra lingvistike)
Type of resource Text
File origin Born digital
Access conditions Open access
Terms of use
Created on 2020-10-02 16:04:59