Bogunović, I. i Kučić, M. (2021). Korpus hrvatskih novinskih portala ENGRI [Skup podataka]. https://urn.nsk.hr/urn:nbn:hr:187:920822.
Bogunović, Irena i Mario Kučić. Korpus hrvatskih novinskih portala ENGRI. Pomorski fakultet, 2021. 01.12.2024. https://urn.nsk.hr/urn:nbn:hr:187:920822.
Bogunović, Irena, i Mario Kučić. 2021. Korpus hrvatskih novinskih portala ENGRI. Pomorski fakultet. https://urn.nsk.hr/urn:nbn:hr:187:920822.
Bogunović, I. i Kučić, M. 2021. Korpus hrvatskih novinskih portala ENGRI. Pomorski fakultet. [Online]. [Citirano 01.12.2024.]. Preuzeto s: https://urn.nsk.hr/urn:nbn:hr:187:920822.
Bogunović I, Kučić M. Korpus hrvatskih novinskih portala ENGRI. [Internet]. Pomorski fakultet: , HR; 2021, [pristupljeno 01.12.2024.] Dostupno na: https://urn.nsk.hr/urn:nbn:hr:187:920822.
I. Bogunović i M. Kučić, Korpus hrvatskih novinskih portala ENGRI, Pomorski fakultet, 2021. Citirano: 01.12.2024. Dostupno na: https://urn.nsk.hr/urn:nbn:hr:187:920822.
Mario Kučić Sveučilište u Rijeci, Pomorski fakultet
Znanstveno / umjetničko područje, polje i grana
HUMANISTIČKE ZNANOSTI Filologija Anglistika
Sažetak (hrvatski)
Korpus hrvatskih internetskih portala prikupljen je u svrhu provedbe znanstveno-istraživačkog projeka Hrvatske zaklade za znanst ("Engleske riječi u hrvatskome jeziku: identifikacija, afektivno-semantičko normiranje i ispitivanje kognitivne obrade bihevioralnim i neuroznanstvenim mnetodama"). Metodom pretraživanja mrežnih izvora i povlačenja podataka (engl. web crawling , usp. Fletcher, 2011). Pohranjuje tekstove s najpopularnijih mrežnih stranica u Hrvatskoj (2014.-2020. g). Prema podacima objavljenima na http://www.digitalnewsreport.org (pristupljeno u travnju 2019.), najpopularnije mrežne stranice i/ili portali u Republici Hrvatskoj su: Telegram, 24sata, Direktno, Dnevno, Net Hr, Hrt, Index_Hr, Jutarnji, Novilist, Rtl, SlobodnaDalmacija, Večernji . Među popularnim mrežnim stranicama su također Tportal, Dnevnik i Local Radio news online. Prva dva nisu dijelom korpusne građe zbog toga što zahtijevaju složeniji pristup skidanju podataka, dok posljednji nije dostupan pod navedenim imenom. Ovime se želi prikupljenu građu učiniti javno dostupnom za korištenje drugim istraživačima
Sažetak (engleski)
The Corpus of Croatian news portals ENGRI was compiled for the purpose of scientific research project titled "English words in Croatian: identification, affective-semantic norming and investigation into cognitive processing via behavioural and neuroscientific methods", financed by the Croatian science foundation. Web browsing and web crawling (cf. Fletcher, 2011) will be used to select and store texts from the most popular webpages in Croatia in the period from 2014 to 2020. According to Reuters Institute Digital News Report for 2018 (retrieved from http://www.digitalnewsreport.org in April, 2019), the twelve most popular webpages/portals in the Republic of Croatia are: Telegram, 24sata, Direktno, Dnevno, Net Hr, Hrt, Index_Hr, Jutarnji, Novilist, Rtl, SlobodnaDalmacija, Večernji. Tportal, Dnevnik and Local Radio news online are also among the popular webpages. The first two web sources will not be included due to the complexity of data extraction procedures required, while the last one is not available under the above-mentioned name. The intention was to make to corpus publicly available.
Metodologija (hrvatski)
Koristila se metoda pretraživanja mrežnih izvora i povlačenja podataka (engl. web crawling) kako bi se pohranili tekstovi s najpopularnijih mrežnih stranica u Hrvatskoj u razdoblju 2014.-2020. Prema izvoru http://www.digitalnewsreport.org (pristupljeno u travnju 2019.) to su: Telegram, 24sata, Direktno, Dnevno, Net Hr, Hrt, Index_Hr, Jutarnji, Novilist, Rtl SlobodnaDalmacija, Večernji . Među popularnim mrežnim stranicama su također Tportal, Dnevnik i Local Radio news online. Prva dva nisu dijelom korpusne građe zbog složenijeg pristupa skidanju podataka, dok posljednji nije dostupan pod navedenim imenom. Korisne informacije iz HTML-a (poput datuma objave članka, njegovog URL-a, naslova, itd.), te sam tekst članka s pripadajućim oznakama (tagovima) i kategorijama raščlanjen je uz pomoć Python paketa „beautifulsoup “. Dobiveni podaci pohranjeni su u relacijsku bazu podataka mysql .
Šifra: UIP-2019-04-1576 Naziv (hrvatski): Engleske riječi u hrvatskome jeziku: Identifikacija, afektivno-semantičko normiranje i ispitivanje kognitivne obrade bihevioralnim i neuroznanstvenim metodama Naziv (engleski): English words in Croatian: Identification, affective-semantic norming and investigation into cognitive processing via behavioural and neuroscientific methods Kratica: ENGRI Voditelj: Irena Bogunović Pravna nadležnost: Hrvatska Financijer: HRZZ Linija financiranja: UIP
Izdavač
Pomorski fakultet Faculty of Maritime Studies, Rijeka