Abstract | Predmet rada su skladišta podataka utemeljena na jezerima podataka. Cilj rada je uz maksimalnu fokusiranost, na tehnički jednostavnim primjerima, jasno i razvidno predstaviti sve izvanredne glavne značajke takvih sustava. Izlaganje je utemeljeno konceptima V dimenzija Velike količine podataka, modelu računalstva u oblaku i svakako na cjelovitom pregledu relevantnih arhitektura - tradicionalnih skladišta podataka, skladišta podataka u oblaku, jezera podataka i modernih skladišta podataka. Nakon toga su konceptualno obrađeni, u arhitekturnom i funkcionalnom smislu, temeljni elementi potrebni za implementaciju kao što su strukturiranje jezera podataka po medallion arhitekturi, analitički program Apache Spark i Delta Lake format podataka. U praktičnom dijelu rada korišteni su alati otvorenog koda DBeaver, JupyterLab, Weka i RStudio. Sukladno čestoj praksi u stručnoj literaturi sustav je implementiran kao instalacija na lokalnom računalu radi tehničke jednostavnosti u segmentu svih podešavanja parametara sustava, kao i detaljnosti uvida u način njegovog funkcioniranja. Uvid u način funkcioniranja je iznimno važan kako bi se maksimalno iskoristio temeljni princip distribuirane obrade podataka, prisutne u svakom detalju funkcioniranja sustava. U praktičnom smislu ustanovljena je velika praktičnost primjene sustava u segmentu poslovne analize zbog velikih mogućnosti uporabe SQL-a u kombinaciji sa Delta Lake formatom podataka. To je konkretno demonstrirano uporabom alata DBeaver, JupyterLab, Weka i RStudio, na skupovima podataka tržišta kapitala u strukturiranom, polu strukturiranom i nestrukturiranom obliku. Sve brojne pozitivne značajke ispitanog koncepta ukazuju da će imati značajan utjecaj općenito na razvoj arhitektura poslovnih aplikacija u budućnosti. |
Abstract (english) | The subject of the work are data lakehouses. The aim of the paper is to present all the outstanding main features of such systems clearly and clearly, with maximum focus, using technically simple examples. The presentation is based on the concepts of the V dimensions of Big data, the cloud computing model and certainly on a comprehensive overview of the relevant architectures - traditional data warehouses, cloud data warehouses, data lakes and modern data warehouses. After that, the fundamental elements needed for the implementation, such as structuring of the data lake according to the medallion architecture, the analytical program Apache Spark and the Delta Lake data format, were conceptually processed, in an architectural and functional sense. In the practical part of the work, the open source tools DBeaver, JupyterLab, Weka and RStudio were used. In accordance with the frequent practice in professional literature, the system is implemented as an installation on a local computer for technical simplicity in the segment of all system parameter settings, as well as detailed insight into the way it functions. Insight into the way it functions is extremely important in order to make the most of the basic principle of distributed data processing, present in every detail of the system's functioning. In a practical sense, the great practicality of using the system in the segment of business analysis was established due to great possibilities of using SQL in combination with Delta Lake data format. This was concretely demonstrated by using DBeaver, JupyterLab, Weka and RStudio tools, on capital market data sets in structured, semi-structured and unstructured form. All the numerous positive features of the examined concept indicate that it will have a significant impact in general on the development of business application architectures in the future. |