Naslov Razmještaj osjetila korištenjem ojačanog učenja
Naslov (engleski) Sensor placement using reinforcement learning
Autor Filip Lipovac
Mentor Kristijan Lenac (mentor)
Član povjerenstva Kristijan Lenac (predsjednik povjerenstva)
Član povjerenstva Mladen Tomić (član povjerenstva)
Član povjerenstva Goran Mauša (član povjerenstva)
Ustanova koja je dodijelila akademski / stručni stupanj Sveučilište u Rijeci Tehnički fakultet (Zavod za računarstvo) (Katedra za inteligentne računalne sustave) Rijeka
Datum i država obrane 2022-05-27, Hrvatska
Znanstveno / umjetničko područje, polje i grana TEHNIČKE ZNANOSTI Strojarstvo
Sažetak Ovaj rad predstavlja nastavak istraživanja u sklopu kojega je definiran generalni
model prostora i osjetila te simulacijsko okruženje za provjeru metaheurističkih optimizacijskih algoritama za razmještaj osjetila u zatvorenom prostoru (Diego Sušanj,
2021). Simulacijsko okruženje i modeli prostora i osjetila prošireni su okruženjem
za treniranje temeljenim na OpenAI Gym implementaciji, knjižnici za kreiranje generaliziranih modela okruženja za treniranje metoda ojačanog učenja. Predložena
okruženja se koristi za ispitivanje metoda ojačanog učenja u kojima agent, matematički opisano usmjereno ili svesmjerno osjetilo, korištenjem niza opisanih akcija
razvija politiku kojom maksimizira pokrivenost u simuliranom zatvorenom prostoru.
Rad se fokusira na proširivanje modela prostora sa okruženjem za treniranje modela
ojačanog učenja, pritom koristeći generalizirani model osjetila i prostora iz postojeće literature i na istraživanje i korištenje algoritama ojačanog učenja za primjenu
na području razmještaja osjetila u dvodimenzionalnom okruženju. Odabrano je i
ispitano pet algoritama dubokog ojačanog učenja koji su implementirani u Stable
baselines knjižnici, od čega dvije implementacije koriste metodu glumac-kritičar dok
su preostale tri prilagođene verzije algoritama dubokog Q-učenja. Treniranje je provedeno u unaprijed zadanom broju koraka gdje u svakom koraku agent izvodi akciju
za koju dobije povratnu informaciju iz okruženja. Povratna informacija iz okruženja
je kombinacija trenutne pozicije, orijentacije i postignute vidljivosti osjetila. Rezultati eksperimenta su pokazali da opisani pristup može razmjestiti oba tipa osjetila na
pozicije s visokom pokrivenošću prostora te je uz prilagodbu parametra učenja pokazana mogućnost treniranja na jednom i korištenju treniranog modela u nepoznatom
prostoru, unatoč malom broju koraka evaluacije i s ograničenim računalnim resursima. Završno, rezultati istraživanja pokazaju potencijal za nastavak istraživanja
u području korištenja dubokog ojačanog učenja za rješavanje problema razmještaja
osjetila, ali su uočeni i nedostaci u trenutnoj implementaciji u kojoj je jedna od
najvećih ograničenosti izostanak podrške za više-agentni način rada.
Sažetak (engleski) The paper is a continuation of a research in which was created a model for enclosed
environment and sensors together with a simulator for testing metaheuristic algorithms for optimal distribution of sensors (Diego Sušanj, 2021). Created simulator
and sensor and environment model were expanded with a new training environment
based on OpenAI Gym implementation, a framework for defining generalized training environment for reinforcement learning methods. Proposed environments are
then used to train and test reinforcement learning methods in which an agent, a
mathematically described isotropic or directional sensor, uses a series of described
actions to develop a policy that maximizes area coverage in a simulated enclosed
environments. The paper focuses on creating an environment for reinforcement learning training, using knowledge and generalized model of senses and environments
from existing literature and research and then applying reinforcement learning algorithms for application in spatial distribution of sensors. Research explores and uses
five deep reinforcement learning algorithms implemented in Stable baselines library,
out of which two implemetations use actor-critic approach and the other three are
modified versions of Deep Q-Network algorithms. Training was done in a predetermined number of steps, where in each step the agent carries out an action for which
he receives feedback from the environment. Feedback is a combination of a current
location, orientation and sensors’ visibility. Experimental results have shown that
the described approach can position both types of sensors in positions with high area
coverage and a model trained in one environment, with fine tuned learning parameters, could be used on unknown environment despite a small number of evaluation
steps and with limited computing resources. Finally, the research results have shown
the potential for further research in the field of sensory deployment applications but
also elevated a problem with current implementation in which one of the biggest
limitations is the lack of a support for multi-agent approach.
Ključne riječi
ojačano učenje
duboko ojačano učenje
razmještaj osjetila
OpenAI Gym
Stable-Baselines
Ključne riječi (engleski)
reinforcemet learning
deep reinforcement learning
sensor placement
OpenAI Gym
Stable-baselines
Jezik hrvatski
URN:NBN urn:nbn:hr:190:088862
Studijski program Naziv: Računarstvo Vrsta studija: sveučilišni Stupanj studija: diplomski Akademski / stručni naziv: magistar/magistra inženjer/inženjerka računarstva (mag. ing. comp.)
Vrsta resursa Tekst
Način izrade datoteke Izvorno digitalna
Prava pristupa Pristup korisnicima matične ustanove
Uvjeti korištenja
Datum i vrijeme pohrane 2022-06-07 08:59:26