Naslov Svojstva velikih količina podataka
Naslov (engleski) Properties of big data
Autor Kristina Mikulec
Mentor Ognjen Orel (mentor)
Član povjerenstva Ognjen Orel (predsjednik povjerenstva)
Član povjerenstva Mladen Jurak (član povjerenstva)
Član povjerenstva Ljiljana Arambašić (član povjerenstva)
Član povjerenstva Pavle Goldstein (član povjerenstva)
Ustanova koja je dodijelila akademski / stručni stupanj Sveučilište u Zagrebu Prirodoslovno-matematički fakultet (Matematički odsjek) Zagreb
Datum i država obrane 2023-09-28, Hrvatska
Znanstveno / umjetničko područje, polje i grana PRIRODNE ZNANOSTI Matematika
Sažetak U ovom radu opisuju se svojstva velikih podataka, s dubljim uvidom u istinitost, vrijednost i promjenjivost. Dan je kratak pregled svih svojstava i neki primjeri izvora velikih podataka. Istinitost podataka promatra se kroz različita svojstva kvalitete podataka, a posebno su izdvojene poteškoće obrade jezika i ljudskog izražavanja. Dane su neke poslovne metode za poboljšanje i očuvanje kvalitete, kao i druge automatizirane metode. Detaljno su opisani razni primjeri izvlačenja vrijednosti iz
... Više velikih podataka. Predstavljeni su alati i metode za obradu podataka, uključujući grupiranje podataka, regresijsku i prediktivnu analizu te klasifikaciju, uz naglasak na strojno učenje. Posebno se istražuje obrada prirodnog jezika i njene komponente. Navode se i neke platforme za analizu velikih podataka. Promjenjivost je opisana primjerima promjenjivih podataka i modela. Dublje su istraženi prilagodljivi modeli na temelju pomaka koncepta. Navedeni su problemi povezivanja i integracije podataka iz novih izvora uz primjere algoritama za automatsko rješavanje tih problema. U praktičnom dijelu na primjeru podataka s društvenim mreža pokazuju se neke metode obrade. Detaljno je opisan oblik podataka, kao i prikupljanje i pretprocesiranje. Istinitost, odnosno vjerodostojnost podataka ispituje se naivnim Bayesovim klasifikatorom, uz podjelu na glasine i provjerljive vijesti. Izvlačenje vrijednosti pokazuje se analizom sentimenta javnosti po temama koje pripadaju promatranim događajima, a promjenjivost pronalaženjem uzroka promjena u sentimentu prema odabranim temama, organizacijama i osobama. Sakrij dio sažetka
Sažetak (engleski) In this paper the properties of big data are described, with a deeper insight into veracity, value, and variability. A brief overview of all properties and some examples of big data sources are provided. Data veracity is examined through various data quality attributes, and a particular focus is given to the challenges of analysing language and human expression. Some business methods for improving and preserving data quality are mentioned, as well as other automated methods. Various
... Više examples of extracting value from big data are detailed. Tools and methods for data processing, including data clustering, regression and predictive analysis, and classification, are presented, with an emphasis on machine learning. Natural language processing and its components are specifically explored. Some platforms for big data analysis are also mentioned. Variability is described with examples of variable data and models. Adaptive models based on concept drift are further explored. Data linkage and integration issues from new sources are discussed, along with examples of algorithms for automatic problem-solving. In the practical part, some data processing methods are demonstrated using social media data as an example. Data format, collection, and preprocessing are described in detail. Veracity, or rather credibility of data is examined using a naive Bayes classifier, categorizing the data into rumours and verifiable news. Value extraction is demonstrated by analyzing public sentiment on topics related to observed events, while variability is explored by finding the causes of sentiment changes related to selected topics, organizations, and individuals. Sakrij dio sažetka
Ključne riječi
veliki podaci
istinitost
kvaliteta podataka
promjenjivost
vrijednost
društvene mreže
obrada prirodnog jezika
analiza sentimenta
strojno učenje
Ključne riječi (engleski)
big data
veracity
data quality
variability
value
social media
natural language processing
sentiment analysis
machine learning
Jezik hrvatski
URN:NBN urn:nbn:hr:217:573591
Studijski program Naziv: Računarstvo i matematika Vrsta studija: sveučilišni Stupanj studija: diplomski Akademski / stručni naziv: sveučilišni magistar računarstva i matematike (univ. mag. inf. et math.)
Vrsta resursa Tekst
Način izrade datoteke Izvorno digitalna
Prava pristupa Otvoreni pristup
Uvjeti korištenja
Datum i vrijeme pohrane 2024-02-02 11:42:45