Naslov Scalable data processing model of the ALICE experiment in the cloud
Naslov (hrvatski) Model skalabilne obrade podataka ALICE eksperimenta u oblaku
Autor Petra Lončar https://orcid.org/0000-0001-6486-2230
Mentor Sven Gotovac (mentor)
Član povjerenstva Eugen Mudnić (predsjednik povjerenstva)
Član povjerenstva Josip Knezović (član povjerenstva)
Član povjerenstva Goran Martinović https://orcid.org/0000-0002-7469-6018 (član povjerenstva)
Član povjerenstva Linda Vicković (član povjerenstva)
Član povjerenstva Dunja Božić-Štulić (član povjerenstva)
Ustanova koja je dodijelila akademski / stručni stupanj Sveučilište u Splitu Fakultet elektrotehnike, strojarstva i brodogradnje (Zavod za elektroniku i računarstvo ) Split
Datum i država obrane 2023-06-09, Hrvatska
Znanstveno / umjetničko područje, polje i grana TEHNIČKE ZNANOSTI Računarstvo Informacijski sustavi
Univerzalna decimalna klasifikacija (UDC ) 621.3 - Elektrotehnika
Sažetak This thesis proposes an optimisation strategy for scalable Big Data processing in a heterogeneous Cloud. The resource needs of A Large Ion Collider Experiment (ALICE) at the European Organization for Nuclear Research (CERN) are reviewed as a motivating example. The thesis examines how to efficiently process and optimise the processing of resourceintensive tasks on a heterogeneous Cloud infrastructure distributed in five data centres to meet the needs of the ALICE experiment at the Tier 2 level. The objective was to perform research on a much larger number of tasks and resources of a significantly larger capacity than prior studies, which focused on a smaller number of tasks and resources with a lower capacity. The proposed and developed processing model for ALICE Monte Carlo production is based on a centralised software-defined management approach for the use of heterogeneous resources. Algorithms for assigning tasks to heterogeneous virtual resources have been analysed and proposed. The proposed algorithms are based on the selected Evolution Strategies metaheuristic that has not yet been used in this domain, namely Evolution Strategies algorithm, Evolution Strategies algorithm with Longest Job First broker policy, and Evolution Strategies algorithm with Shortest Job First broker policy. The Cloud system model is implemented using the open-source CloudSim simulator. ALICE Monte Carlo production job requirements are imported into the simulation model as a workload created in Standard Workload Format (SWF) adapted for the Cloud simulator. The results of the simulation performance of the reference implementation under different loads were analysed and compared with the Genetic Algorithm from the same group of algorithms. The obtained results show multiple improvements. The proposed data processing model enables centralised software management of heterogeneous Cloud infrastructure, optimises measured metrics, improves resource usage, and achieves the system's scalability.
Sažetak (hrvatski) Ova disertacija predlaže strategiju optimizacije za skalabilnu obradu velikih podataka u heterogenom oblaku (engl. Cloud). U radu se kao motivirajući primjer razmatraju potrebe za resursima Eksperimenta na velikom ionskom sudaraču (engl. A Large Ion Collider Experiment, ALICE) na Europskoj organizaciji za nuklearna istraživanja (engl. European Organization for Nuclear Research, CERN). Rad istražuje kako učinkovito obraditi i optimizirati obradu resursno-intenzivnih zadataka na heterogenoj infrastrukturi u oblaku raspoređenoj u pet podatkovnih centara kako bi se zadovoljile potrebe na Tier 2 razini ALICE eksperimenta. Cilj je bio provesti istraživanje za višestruko veći broj zadataka i resurse znatno većeg kapaciteta u odnosu na dosadašnja istraživanja koja su provođena na manjem broju zadataka i resursima manjih kapaciteta. Predloženi i razvijeni model obrade za ALICE Monte Carlo produkciju temelji se na centraliziranom softverski definiranom pristupu upravljanja korištenjem heterogenih resursa. Analizirani su i predloženi algoritmi za dodjelu zadataka heterogenim virtualnim resursima. Predloženi algoritmi temelje se na odabranoj metaheuristici evolucijskih strategija (engl. Evolution Strategies) koja dosad nije korištena u ovoj domeni, a to su algoritam evolucijskih strategija, algoritam evolucijskih strategija s broker politikom kod koje prioritet izvođenja imaju najdulji zadaci (engl. Longest Job First) i algoritam evolucijskih strategija s broker politikom koja prioritet izvođenja daje najkraćim zadacima (engl. Shortest Job First). Model računalnog oblaka implementiran je pomoću CloudSim simulatora otvorenog koda. Zahtjevi ALICE Monte Carlo produkcijskih poslova uneseni su u simulaciju modela u obliku kreiranog radnog opterećenja u standardnom formatu radnog opterećenja (engl. Standard Workload Format, SWF) prilagođenom za rad u odabranom simulatoru. Analizirani su rezultati izvedbe simulacije referentne implementacije pod različitim opterećenjima i uspoređeni su s genetskim algoritmom (engl. Genetic Algorithm) iz iste skupine algoritama. Dobiveni rezultati pokazuju višestruka poboljšanja. Ovdje predložen model obrade podataka omogućava centralizirano softversko upravljanje heterogenom infrastrukturom u oblaku, optimizira mjerene metrike, poboljšava korištenje resursa i postiže skalabilnost sustava.
Ključne riječi
ALICE
Big Data
Cloud computing
data processing
distributed management
Evolution Strategies
heterogeneity
resource management
scalability
software-defined
system simulation
task scheduling
Ključne riječi (hrvatski)
ALICE
veliki podaci
računarstvo u oblaku
obrada podataka
distribuirano upravljanje
evolucijske strategije
heterogenost
upravljanje resursima
skalabilnost
softverski definirano
simulacija sustava
raspoređivanje zadataka
Jezik engleski
URN:NBN urn:nbn:hr:179:516445
Datum promocije 2023
Studijski program Naziv: Elektrotehnika i informacijska tehnologija Vrsta studija: sveučilišni Stupanj studija: poslijediplomski doktorski Akademski / stručni naziv: doktor/doktorica znanosti, područje tehničkih znanosti, polje računarstvo (dr. sc.)
Vrsta resursa Tekst
Opseg 115 str.
Način izrade datoteke Izvorno digitalna
Prava pristupa Otvoreni pristup
Uvjeti korištenja
Datum i vrijeme pohrane 2023-07-05 12:46:46