Title (croatian) | Hrvatska psiholingvistička baza |
Title (english) | Croatian Psycholinguistic Database |
Author | Anita Peti-Stantić Sveučilište u Zagrebu, Filozofski fakultet |
Author | Mateusz-Milan Stanojević Sveučilište u Zagrebu, Filozofski fakultet |
Author | Maja Anđel Sveučilište u Zagrebu, Filozofski fakultet |
Author | Mirjana Tonković Sveučilište u Zagrebu, Filozofski fakultet |
Author | Gordana Keresteš Sveučilište u Zagrebu, Filozofski fakultet |
Author | Nikola Ljubešić Sveučilište u Zagrebu, Filozofski fakultet Institut Jožef Stefan, Ljubljana |
Author | Jana Willer Gold University College London |
Author | Jelena Tušek Sveučilište u Zagrebu, Filozofski fakultet |
Author | Irina Masnikosa Sveučilište u Zagrebu, Filozofski fakultet |
Author | Vedrana Gnjidić Sveučilište u Zagrebu, Filozofski fakultet |
Scientific / art field, discipline and subdiscipline | HUMANISTIC SCIENCES Philology General Linguistics |
Abstract (croatian) | Hrvatska psiholingvistička baza je skup od ukupno 6000 riječi – 3000 iz korpusa hrvatskoga jezika, 1500 iz Hrvatskog čestotnog rječnika i 1500 iz udžbeničkih tekstova za četvrti, peti i šesti razred osnovne škole (Hrvatski jezik, Matematika, Povijest, Geografija, Priroda).
Riječi je moguće pretraživati na temelju objektivnih uvjeta kao što su vrsta riječi, duljina riječi, rod i živost imenica, čestoća riječi u internetskom korpusu hrvatskoga jezika hrWaC. Uz to, riječi je moguće pretraživati i na temelju uvjeta dobivenih psiholingvističkim istraživanjima. Ti su uvjeti konkretnost, predočivost, relativna čestoća i dob usvajanja. |
Abstract (english) | Croatian Psycholinguistic Database is a collection of 6000 words – 3000 from the Croatian language corpus, 1500 from the Croatian frequency dictionary and 1500 words excerpted from textbooks for the fourth, fifth and sixth grade of elementary school (Croatian language, Natural Sciences, Mathematics, Geography, History).
Words are searchable by objective conditions such as word class, word length, gender, animacy/inanimacy for nouns and word frequency from the Croatian web Corpus hrWaC. In addition to that, words are searchable by psycholinguistic ratings of concreteness, imageability, subjective frequency and age of acquisition. |
Methods (croatian) | Početna zbirka od 3000 riječi u Hrvatskoj psiholingvističkoj bazi sastoji se od po 1000 imenica, glagola i pridjeva hrvatskoga jezika iz flektivnog leksikona hrLex, čija je frekvencija očitana iz korpusa hrWaC. S obzirom na planirani opseg baze, ekscerpirani su samo leksemi koji se u korpusu pojavljuju češće od 3000 puta. Razlog takvom odabiru je procjena da ispitanici, budu li suočeni s leksemima koji su rijetki i čije im je značenje nepoznato, neće moći procijeniti ni njihovu konkretnost, ni predočivost. Takvom je metodom izdvojeno 7695 imenica, 2849 glagola i 3124 pridjeva. S tako dobivenih popisa slučajnim je izborom odabrano po 1000 leksema za svaku vrstu.
Drugi dio baze, tj. novih 3000 riječi koje zajedno s ovima prvima čine ukupno 6000, su skupljane ručno, ispisom iz Hrvatskog čestotnog rječnika, oko 2500 najčešćih punoznačnih riječi koje su zatim uparivane s onima već testiranima i te smo micali dok nismo došli do broja od 1500 dotad netestiranih. Istim je postupkom izvađeno oko 2500 riječi iz udžbenika za hrvatski, matematiku, prirodu, povijest i geografiju u 4., 5. i 6. razredima osnovne škole, riječi za koje smo mislili da ih djeca u toj dobi možda ne bi razumjela, zatim smo opet sve prošli kroz dotadašnja testiranja da vidimo jesmo li ih testirali, da bismo ostali s 1500 netestiranih.
Šifre:
k.N - konkretnost (N)
k.M - konkretnost (M)
k.C - konkretnost (C)
k.SD - konkretnost (SD)
k. MIN - konkretnost (min)
k.MAX - konkretnost (max)
č.N - subjektivna čestoća (N)
č.M - subjektivna čestoća (M)
č.C - subjektivna čestoća (C)
č.SD - subjektivna čestoća (SD)
č. MIN - subjektivna čestoća (min)
č.MAX - subjektivna čestoća (max)
p.N - predočivost (N)
p.M - predočivost (M)
p.C - predočivost (C)
p.SD - predočivost (SD)
p. MIN - predočivost (min)
p.MAX - predočivost (max)
d.N - dob usvajanja (N)
d.M - dob usvajanja (M)
d.C - dob usvajanja (C)
d.SD - dob usvajanja (SD)
d. MIN - dob usvajanja (min)
d.MAX - dob usvajanja (max) |
Methods (english) | The initial 3000 words in the Croatian Psycholinguistic Database consist of 1000 nouns and adjectives from the Croatian flective lexicon hrLex. The lexeme frequency was taken from the hrWac corpus. Considering the planned database scope, only the lexemes with frequency higher than 3000 were included in the database. The reason for such choice is the reasoning that the participants would not be able to judge the concreteness or imageability of words that are rare and that they do not know the meaning of. Such method resulted in excerpting 7695 nouns, 2849 verbs and 3124 adjectives. A 1000 lexemes from each word class were then taken by random choice. |
Language | croatian |
DOI | https://doi.org/10.17234/megahr.2019.hpb |
URN:NBN | urn:nbn:hr:131:593668 |
Publication | 2019-12-17 |
Geolocation | Zagreb, Croatia |
Project | Number: IP-2016-06-1210 Title (croatian): Modeliranje mentalne gramatike hrvatskoga: ograničenja informacijske strukture Acronym: MEGAHR/MEGACRO Leader: Anita Peti-Stantić Jurisdiction: Croatia Funding stream: IP |
External related object | Is documented by: URL https://github.com/megahr/lexicon |
Publisher | Sveučilište u Zagrebu, Filozofski fakultet University of Zagreb, Faculty of Humanities and Social Sciences |
Access conditions | Open access |
Terms of use | |
Created on | 2019-12-17 13:20:45 |