Bogunović, I. & Kučić, M. (2021). Korpus hrvatskih novinskih portala ENGRI [Data set]. https://urn.nsk.hr/urn:nbn:hr:187:920822.
Bogunović, Irena and Mario Kučić. Korpus hrvatskih novinskih portala ENGRI. Pomorski fakultet, 2021. 07 Nov 2024. https://urn.nsk.hr/urn:nbn:hr:187:920822.
Bogunović, Irena, and Mario Kučić. 2021. Korpus hrvatskih novinskih portala ENGRI. Pomorski fakultet. https://urn.nsk.hr/urn:nbn:hr:187:920822.
Bogunović, I. and Kučić, M. 2021. Korpus hrvatskih novinskih portala ENGRI. Pomorski fakultet. [Online]. [Accessed 07 November 2024]. Available from: https://urn.nsk.hr/urn:nbn:hr:187:920822.
Bogunović I, Kučić M. Korpus hrvatskih novinskih portala ENGRI. [Internet]. Pomorski fakultet: , HR; 2021, [cited 2024 November 07] Available from: https://urn.nsk.hr/urn:nbn:hr:187:920822.
I. Bogunović and M. Kučić, Korpus hrvatskih novinskih portala ENGRI, Pomorski fakultet, 2021. Accessed on: Nov 07, 2024. Available: https://urn.nsk.hr/urn:nbn:hr:187:920822.
Mario Kučić Sveučilište u Rijeci, Pomorski fakultet
Scientific / art field, discipline and subdiscipline
HUMANISTIC SCIENCES Philology Anglistics
Abstract (croatian)
Korpus hrvatskih internetskih portala prikupljen je u svrhu provedbe znanstveno-istraživačkog projeka Hrvatske zaklade za znanst ("Engleske riječi u hrvatskome jeziku: identifikacija, afektivno-semantičko normiranje i ispitivanje kognitivne obrade bihevioralnim i neuroznanstvenim mnetodama"). Metodom pretraživanja mrežnih izvora i povlačenja podataka (engl. web crawling , usp. Fletcher, 2011). Pohranjuje tekstove s najpopularnijih mrežnih stranica u Hrvatskoj (2014.-2020. g). Prema podacima objavljenima na http://www.digitalnewsreport.org (pristupljeno u travnju 2019.), najpopularnije mrežne stranice i/ili portali u Republici Hrvatskoj su: Telegram, 24sata, Direktno, Dnevno, Net Hr, Hrt, Index_Hr, Jutarnji, Novilist, Rtl, SlobodnaDalmacija, Večernji . Među popularnim mrežnim stranicama su također Tportal, Dnevnik i Local Radio news online. Prva dva nisu dijelom korpusne građe zbog toga što zahtijevaju složeniji pristup skidanju podataka, dok posljednji nije dostupan pod navedenim imenom. Ovime se želi prikupljenu građu učiniti javno dostupnom za korištenje drugim istraživačima
Abstract (english)
The Corpus of Croatian news portals ENGRI was compiled for the purpose of scientific research project titled "English words in Croatian: identification, affective-semantic norming and investigation into cognitive processing via behavioural and neuroscientific methods", financed by the Croatian science foundation. Web browsing and web crawling (cf. Fletcher, 2011) will be used to select and store texts from the most popular webpages in Croatia in the period from 2014 to 2020. According to Reuters Institute Digital News Report for 2018 (retrieved from http://www.digitalnewsreport.org in April, 2019), the twelve most popular webpages/portals in the Republic of Croatia are: Telegram, 24sata, Direktno, Dnevno, Net Hr, Hrt, Index_Hr, Jutarnji, Novilist, Rtl, SlobodnaDalmacija, Večernji. Tportal, Dnevnik and Local Radio news online are also among the popular webpages. The first two web sources will not be included due to the complexity of data extraction procedures required, while the last one is not available under the above-mentioned name. The intention was to make to corpus publicly available.
Methods (croatian)
Koristila se metoda pretraživanja mrežnih izvora i povlačenja podataka (engl. web crawling) kako bi se pohranili tekstovi s najpopularnijih mrežnih stranica u Hrvatskoj u razdoblju 2014.-2020. Prema izvoru http://www.digitalnewsreport.org (pristupljeno u travnju 2019.) to su: Telegram, 24sata, Direktno, Dnevno, Net Hr, Hrt, Index_Hr, Jutarnji, Novilist, Rtl SlobodnaDalmacija, Večernji . Među popularnim mrežnim stranicama su također Tportal, Dnevnik i Local Radio news online. Prva dva nisu dijelom korpusne građe zbog složenijeg pristupa skidanju podataka, dok posljednji nije dostupan pod navedenim imenom. Korisne informacije iz HTML-a (poput datuma objave članka, njegovog URL-a, naslova, itd.), te sam tekst članka s pripadajućim oznakama (tagovima) i kategorijama raščlanjen je uz pomoć Python paketa „beautifulsoup “. Dobiveni podaci pohranjeni su u relacijsku bazu podataka mysql .
Number: UIP-2019-04-1576 Title (croatian): Engleske riječi u hrvatskome jeziku: Identifikacija, afektivno-semantičko normiranje i ispitivanje kognitivne obrade bihevioralnim i neuroznanstvenim metodama Title (english): English words in Croatian: Identification, affective-semantic norming and investigation into cognitive processing via behavioural and neuroscientific methods Acronym: ENGRI Leader: Irena Bogunović Jurisdiction: Croatia Funding stream: UIP
Publisher
Pomorski fakultet Faculty of Maritime Studies, Rijeka