Združeno učenje više zadataka uz kontinuirano učenje za primjene obrade prirodnog jezika iz industrijske prakse

Ferković, Tin

prikaz prve stranice dokumenta Združeno učenje više zadataka uz kontinuirano učenje za primjene obrade prirodnog jezika iz industrijske prakse

No public access

master's thesis

Združeno učenje više zadataka uz kontinuirano učenje za primjene obrade prirodnog jezika iz industrijske prakse

Zagreb: University of Zagreb, Faculty of Electrical Engineering and Computing, 2023. urn:nbn:hr:168:686578

Ferković, Tin

University of Zagreb
Faculty of Electrical Engineering and Computing

Institutional repository: FER Repository

Cite this document

APA 6th Edition

Ferković, T. (2023). Združeno učenje više zadataka uz kontinuirano učenje za primjene obrade prirodnog jezika iz industrijske prakse (Master's thesis). Zagreb: University of Zagreb, Faculty of Electrical Engineering and Computing. Retrieved from https://urn.nsk.hr/urn:nbn:hr:168:686578

MLA 8th Edition

Ferković, Tin. "Združeno učenje više zadataka uz kontinuirano učenje za primjene obrade prirodnog jezika iz industrijske prakse." Master's thesis, University of Zagreb, Faculty of Electrical Engineering and Computing, 2023. https://urn.nsk.hr/urn:nbn:hr:168:686578

Chicago 17th Edition

Harvard

Ferković, T. (2023). 'Združeno učenje više zadataka uz kontinuirano učenje za primjene obrade prirodnog jezika iz industrijske prakse', Master's thesis, University of Zagreb, Faculty of Electrical Engineering and Computing, accessed 14 March 2025, https://urn.nsk.hr/urn:nbn:hr:168:686578

Vancouver

Ferković T. Združeno učenje više zadataka uz kontinuirano učenje za primjene obrade prirodnog jezika iz industrijske prakse [Master's thesis]. Zagreb: University of Zagreb, Faculty of Electrical Engineering and Computing; 2023 [cited 2025 March 14] Available at: https://urn.nsk.hr/urn:nbn:hr:168:686578

IEEE

T. Ferković, "Združeno učenje više zadataka uz kontinuirano učenje za primjene obrade prirodnog jezika iz industrijske prakse", Master's thesis, University of Zagreb, Faculty of Electrical Engineering and Computing, Zagreb, 2023. Available at: https://urn.nsk.hr/urn:nbn:hr:168:686578

Cite this item: https://urn.nsk.hr/urn:nbn:hr:168:686578

Metadata

Title	Združeno učenje više zadataka uz kontinuirano učenje za primjene obrade prirodnog jezika iz industrijske prakse
Title (english)	Multi-task learning with intermediate continual learning for Industry NLP use cases
Author	Tin Ferković
Mentor	Jan Šnajder (mentor)
Committee member	Jan Šnajder (predsjednik povjerenstva)
Committee member	Marko Đurasević (član povjerenstva)
Committee member	Marko Čupić (član povjerenstva)
Granter	University of Zagreb Faculty of Electrical Engineering and Computing Zagreb
Defense date and country	2023-07-10, Croatia
Abstract	Tvrtke se nerijetko suočavaju s problemom rješavanja više zadataka obrade prirodnog jezika (engl. natural language processing, NLP) te kontinuiranih zahtjeva klijenata ili promjena distribucije (engl. distribution shift). Standardni pristup pojedinačnog treniranja velikih jezičnih modela (engl. large language models, LLMs) nije održiv zbog vremena potrebnog za učenje, broja parametara te sposobnosti obrade novih podataka. Cilj ovog rada jest pronaći metodu združenog učenja zadataka (engl. multi-task learning, MTL) koja je također primjenjiva za kontinuirano učenje (engl. continual learning, CL). Cilj je premostiti istraživački jaz između združenog i kontinuiranog učenja. Rad ispituje pristupe adaptera i hiper mreže (engl. hypernetwork) te uspoređuje njihovu uspješnost s pojedinačnim treniranjem zadataka u pogledu performansi, broja parametara te vremena potrebnog za učenje. E-pošta i računi iz različitih industrijskih primjena koji sadrže zadatke prepoznavanja imenovanih entiteta (engl. named entity recognition, NER) i klasifikacije sekvenci (engl. sequence classification, CLS) podijeljeni su radi simuliranja scenarija združenog i kontinuiranog učenja. Za svaki združeni ili kontinuirani zadatak trenira se zasebni adapter ili fuzija adaptera. Obuka hiper mreže provodi se za združeno učenje zadataka te nastavlja tijekom dva kruga kontinuiranog učenja. Prilikom scenarija združenog učenja, adapteri i hiper mreža daju rezultate slične pristupu pojedinačnog učenja zadataka. Međutim, adapteri smanjuju vrijeme potrebno za učenje te broj parametara redom za 29,4% i 99,16%, dok ih hiper mreža smanjuje za 15% i 91,38%. Kada se u obzir uzme kontinuirano učenje, adapteri zadržavaju slične rezultate, dok hiper mreža pokazuje značajno lošije rezultate za skupove podataka klasifikacije sekvence s malim brojem primjera za učenje. Iako bi budući rad trebao koristiti skupove podataka s većim brojem primjera te učiti hiper mrežu kontinuirano tijekom više od dva kruga, rezultati impliciraju da su i adapteri i hiper mreža bolja alternativa za združno-kontinuirani scenarij u odnosu na pojedinačno učenje zadataka. Ovi rezultati omogućuju tvrtkama brže učenje modela, uštedu prostora za pohranu, lakšu integraciju sa sustavima strojnog učenja (engl. machine learning, ML) te kontinuirano učenje, uz održavanje rezultata na razini pojedinačnog učenja zadataka. Konačno, budući rad mogao bi uključiti informacije o značajnosti parametara hiper mreže tijekom kontinuiranog učenja.
Abstract (english)	Companies often face a problem of having to solve multiple Natural Language Processing (NLP) tasks and receive new client requirements or face distribution shifts. A standard Large Language Model (LLM) single-task learning (STL) approach is unsustainable in its training time, number of parameters, and ability to handle new data. This work’s objective is to find a multi-task learning (MTL) method, which is also suitable for continual learning (CL). It aims to bridge the research gap between MTL and CL. The work examines adapters and hypernetwork approach and inspects how they compare to STL in terms of performance, number of parameters, and training time. Industrial inbox and invoice documents from different use cases containing named entity recognition (NER) and sequence classification (CLS) tasks are split to simulate MTL and CL scenarios. A different adapter or Adapter Fusion is trained for each MTL/CL task. A hypernetwork training is conducted for MTL and continued for two rounds of CL. Adapters and hypernetwork perform on par with STL when tasks are jointly trained. However, adapters reduce the training time and number of parameters by 29.4% and 99.16%, and a hypernetwork by 15% and 91.38%, respectively. When CL is considered, adapters encounter no performance loss, while hypernetwork sees significantly deteriorated performance for CLS datasets with limited resources. Although the future work should use higher resource datasets and train a hypernetwork continuously for more than two rounds, the results imply that both adapters and hypernetwork are a better alternative to STL for a MTL-CL setting. These findings allow companies to train the models faster, save them using less storage, integrate them easier with ML systems, and continually train them, all whilst preserving an on-par performance with STL. Future work could also incorporate the parameter significance information into hypernetwork CL.
Keywords
Keywords (english)
Language	english
URN:NBN	urn:nbn:hr:168:686578
Study programme	Title: Computing Study programme type: university Study level: graduate Academic / professional title: magistar/magistra inženjer/inženjerka računarstva (magistar/magistra inženjer/inženjerka računarstva)
Type of resource	Text
File origin	Born digital
Access conditions	Closed access
Terms of use
Public note
Created on	2023-10-11 08:50:20

Search form