Skladište podataka utemeljeno na jezeru podataka

Batnožić, Ivan

prikaz prve stranice dokumenta Skladište podataka utemeljeno na jezeru podataka

Preuzmi
PDF 4.4 MB

diplomski rad

Skladište podataka utemeljeno na jezeru podataka

Zagreb: Sveučilište u Zagrebu, Ekonomski fakultet, 2023. urn:nbn:hr:148:965793

Batnožić, Ivan

Sveučilište u Zagrebu
Ekonomski fakultet
Katedra za informatiku

Institucijski repozitorij: REPEFZG

Citirajte ovaj rad

APA 6th Edition

Batnožić, I. (2023). Skladište podataka utemeljeno na jezeru podataka (Diplomski rad). Zagreb: Sveučilište u Zagrebu, Ekonomski fakultet. Preuzeto s https://urn.nsk.hr/urn:nbn:hr:148:965793

MLA 8th Edition

Batnožić, Ivan. "Skladište podataka utemeljeno na jezeru podataka." Diplomski rad, Sveučilište u Zagrebu, Ekonomski fakultet, 2023. https://urn.nsk.hr/urn:nbn:hr:148:965793

Chicago 17th Edition

Batnožić, Ivan. "Skladište podataka utemeljeno na jezeru podataka." Diplomski rad, Sveučilište u Zagrebu, Ekonomski fakultet, 2023. https://urn.nsk.hr/urn:nbn:hr:148:965793

Harvard

Batnožić, I. (2023). 'Skladište podataka utemeljeno na jezeru podataka', Diplomski rad, Sveučilište u Zagrebu, Ekonomski fakultet, citirano: 26.12.2024., https://urn.nsk.hr/urn:nbn:hr:148:965793

Vancouver

Batnožić I. Skladište podataka utemeljeno na jezeru podataka [Diplomski rad]. Zagreb: Sveučilište u Zagrebu, Ekonomski fakultet; 2023 [pristupljeno 26.12.2024.] Dostupno na: https://urn.nsk.hr/urn:nbn:hr:148:965793

IEEE

I. Batnožić, "Skladište podataka utemeljeno na jezeru podataka", Diplomski rad, Sveučilište u Zagrebu, Ekonomski fakultet, Zagreb, 2023. Dostupno na: https://urn.nsk.hr/urn:nbn:hr:148:965793

Za citiranje koristite ovu mrežnu adresu: https://urn.nsk.hr/urn:nbn:hr:148:965793

Podaci o radu

Naslov	Skladište podataka utemeljeno na jezeru podataka
Naslov (engleski)	Data Lakehouse
Autor	Ivan Batnožić
Mentor	Katarina Ćurko (mentor)
Član povjerenstva	Vesna Bosilj Vukšić (član povjerenstva)
Član povjerenstva	Božidar Jaković (član povjerenstva)
Član povjerenstva	Katarina Ćurko (predsjednik povjerenstva)
Ustanova koja je dodijelila akademski / stručni stupanj	Sveučilište u Zagrebu Ekonomski fakultet (Katedra za informatiku) Zagreb
Datum i država obrane	2023-07-01, Hrvatska
Znanstveno / umjetničko područje, polje i grana	TEHNIČKE ZNANOSTI Računarstvo Arhitektura računalnih sustava
Sažetak	Predmet rada su skladišta podataka utemeljena na jezerima podataka. Cilj rada je uz maksimalnu fokusiranost, na tehnički jednostavnim primjerima, jasno i razvidno predstaviti sve izvanredne glavne značajke takvih sustava. Izlaganje je utemeljeno konceptima V dimenzija Velike količine podataka, modelu računalstva u oblaku i svakako na cjelovitom pregledu relevantnih arhitektura - tradicionalnih skladišta podataka, skladišta podataka u oblaku, jezera podataka i modernih skladišta podataka. Nakon toga su konceptualno obrađeni, u arhitekturnom i funkcionalnom smislu, temeljni elementi potrebni za implementaciju kao što su strukturiranje jezera podataka po medallion arhitekturi, analitički program Apache Spark i Delta Lake format podataka. U praktičnom dijelu rada korišteni su alati otvorenog koda DBeaver, JupyterLab, Weka i RStudio. Sukladno čestoj praksi u stručnoj literaturi sustav je implementiran kao instalacija na lokalnom računalu radi tehničke jednostavnosti u segmentu svih podešavanja parametara sustava, kao i detaljnosti uvida u način njegovog funkcioniranja. Uvid u način funkcioniranja je iznimno važan kako bi se maksimalno iskoristio temeljni princip distribuirane obrade podataka, prisutne u svakom detalju funkcioniranja sustava. U praktičnom smislu ustanovljena je velika praktičnost primjene sustava u segmentu poslovne analize zbog velikih mogućnosti uporabe SQL-a u kombinaciji sa Delta Lake formatom podataka. To je konkretno demonstrirano uporabom alata DBeaver, JupyterLab, Weka i RStudio, na skupovima podataka tržišta kapitala u strukturiranom, polu strukturiranom i nestrukturiranom obliku. Sve brojne pozitivne značajke ispitanog koncepta ukazuju da će imati značajan utjecaj općenito na razvoj arhitektura poslovnih aplikacija u budućnosti.
Sažetak (engleski)	The subject of the work are data lakehouses. The aim of the paper is to present all the outstanding main features of such systems clearly and clearly, with maximum focus, using technically simple examples. The presentation is based on the concepts of the V dimensions of Big data, the cloud computing model and certainly on a comprehensive overview of the relevant architectures - traditional data warehouses, cloud data warehouses, data lakes and modern data warehouses. After that, the fundamental elements needed for the implementation, such as structuring of the data lake according to the medallion architecture, the analytical program Apache Spark and the Delta Lake data format, were conceptually processed, in an architectural and functional sense. In the practical part of the work, the open source tools DBeaver, JupyterLab, Weka and RStudio were used. In accordance with the frequent practice in professional literature, the system is implemented as an installation on a local computer for technical simplicity in the segment of all system parameter settings, as well as detailed insight into the way it functions. Insight into the way it functions is extremely important in order to make the most of the basic principle of distributed data processing, present in every detail of the system's functioning. In a practical sense, the great practicality of using the system in the segment of business analysis was established due to great possibilities of using SQL in combination with Delta Lake data format. This was concretely demonstrated by using DBeaver, JupyterLab, Weka and RStudio tools, on capital market data sets in structured, semi-structured and unstructured form. All the numerous positive features of the examined concept indicate that it will have a significant impact in general on the development of business application architectures in the future.
Ključne riječi
Ključne riječi (engleski)
Jezik	hrvatski
URN:NBN	urn:nbn:hr:148:965793
Studijski program	Naziv: Poslovna ekonomija Vrsta studija: sveučilišni Stupanj studija: diplomski Akademski / stručni naziv: magistar/magistra ekonomije (mag.oec.)
Vrsta resursa	Tekst
Način izrade datoteke	Izvorno digitalna
Prava pristupa	Otvoreni pristup
Uvjeti korištenja
Datum i vrijeme pohrane	2023-07-01 16:33:12

Search form